Hello,Spark

最新推荐文章于 2022-10-11 17:52:27 发布

Lucy_Leezhi

最新推荐文章于 2022-10-11 17:52:27 发布

阅读量408

点赞数

分类专栏：杂记文章标签： spark

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/sinat_33186733/article/details/51762627

版权

杂记专栏收录该内容

4 篇文章 0 订阅

订阅专栏

最近一直想研究一下大数据Hadoop, 但是用了整整一个周末，也没发现合适的资料，还在京东了买了两本书，按照书上的说明，最后环境搭建失败了，估计是hadoop 对技术要求太高了。所以我就换到Spark上来研究一下。

之前安装过python，因为启动PySpark 需要使用python。但是启动时，却遇到错误，先在这里记录问题修复的过程，然后再说Spark的hello world。

这里启动的错误是：
no module named zlib

安装zlib

说明python 缺少了zlib包，所以这里我就去查了很多资料，最后的解决办法如下：
在官网上 http://www.zlib.net/ 下载了zlib-1.2.8.tar.gz包。
然后将这个包上传到ubuntu的/apphome 目录，并执行如下命令解压缩：
tar -xvf zlib-1.2.8.tar.gz

压缩完毕后，/apphome目录会多出zlib的目录，cd 进入到这个目录，依次执行如下命令：
./configure
make
make install
执行结束后zlib 安装完成。

重新编译python
将上一篇文章的内容重新执行一遍即可。
Spark 安装

下载spark，进入到http://spark.apache.org/downloads.html ，注意下图中的选项。下载完以后，将包上传到ubuntu 的/apphome 目录。

解压缩spark，在shell 中执行如下命令来解压缩：
tar -xvf spark-1.6.1-bin-hadoop2.6.tgz

执行完以后，/apphome目录中多了一个/apphome/spark-1.6.1-bin-hadoop2.6 目录。shell中执行cd 命令进入该目录。

最重要的一步来了：

执行bin/pyspark 命令，待一阵刷屏过后，Spark 启动成功了，截图为证：

这里写图片描述

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

博客等级

码龄9年

63
原创

2
点赞

13
收藏

4
粉丝

关注

私信

热门文章

分类专栏

最新评论

Ubuntu 安装python 2.7.11
peacezhi: 不错，我想补充一点。如果想查看python2.7的路径，要输入命令 [code=python] import sys sys.path [/code]
ForkJoin源码分析之Task
花溪的小石头: 龙头鼠尾
Java 并发读取List
superGrit 回复 yangdongkai1993: 这样可以吗？比喻list里面是有一部分对象需要发送短信的，你可以创建一个静态类变量a（类型list），每个线程把得到的需要发送短信的对象加入到这个a中，等楼主的第23行for循环走完之后，得到这个a，然后对a进行处理，处理完后删除a中的数据，处理a的这个过程为单线程。也可以在线程run中添加处理逻辑，此时处理方式为多线程。
Java 并发读取List
superGrit: 楼主写的好，大型list数据遍历效率提高不少
Java 并发读取List
yangdongkai1993: 如果读出来的数据需要做业务处理，注入service要怎么做？

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。