Hello,Spark

最近一直想研究一下大数据Hadoop, 但是用了整整一个周末,也没发现合适的资料,还在京东了买了两本书,按照书上的说明,最后环境搭建失败了,估计是hadoop 对技术要求太高了。所以我就换到Spark上来研究一下。

之前安装过python,因为启动PySpark 需要使用python。但是启动时,却遇到错误,先在这里记录问题修复的过程,然后再说Spark的hello world。

这里启动的错误是:
no module named zlib

  • 安装zlib

说明python 缺少了zlib包,所以这里我就去查了很多资料,最后的解决办法如下:
在官网上 http://www.zlib.net/ 下载了zlib-1.2.8.tar.gz包。
然后将这个包上传到ubuntu的/apphome 目录,并执行如下命令解压缩:
tar -xvf zlib-1.2.8.tar.gz

压缩完毕后,/apphome目录会多出zlib的目录,cd 进入到这个目录,依次执行如下命令:
./configure
make
make install
执行结束后zlib 安装完成。

  • 重新编译python
    将上一篇文章的内容重新执行一遍即可。

  • Spark 安装

    下载spark,进入到http://spark.apache.org/downloads.html ,注意下图中的选项。下载完以后,将包上传到ubuntu 的/apphome 目录。
    这里写图片描述

解压缩spark,在shell 中执行如下命令来解压缩:
tar -xvf spark-1.6.1-bin-hadoop2.6.tgz

执行完以后,/apphome目录中多了一个/apphome/spark-1.6.1-bin-hadoop2.6 目录。shell中执行cd 命令进入该目录。

最重要的一步来了:

执行bin/pyspark 命令,待一阵刷屏过后,Spark 启动成功了,截图为证:

这里写图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值