spark-2.4.7的搭建以及pyspark的简单例子

今天,接着跟大家分享一下spark的搭建,spark是一个分布式的计算框架,与MapReduce的区别在于可以准实时处理大数据,是Apache的顶级开源项目之一,目前呢spark稳定版本是spark-2.4.7,所以,我是用的spark-2.4.7,请各位朋友留意一下。关于spark呢,大家如果有兴趣可以自己再找一些资料查阅一下。

spark包的获取地址,大家根据hadoop版本,自行对应下载:spark-2.4.7
我选择的是在这里插入图片描述因为我的hadoop版本是hadoop-2.7.7的。

首先,将spark包传入到hadoop目录下面(我的是这样)
在这里插入图片描述
解压spark,命令:tar -zxvf spark-2.4.7-bin-hadoop2.7.tgz如下图:
在这里插入图片描述
重命名,如下图:
在这里插入图片描述
配置spark的环境变量,命令:vi /etc/profile如下图:
在这里插入图片描述
在这里插入图片描述
进入,spark的conf目录下面,如下图,复制一份spark-env.sh.template 为 spark-env.sh。如下图:
在这里插入图片描述
编辑一下spark-env.sh,如下图:
在这里插入图片描述
IP设置成自己的IP地址。

之后,我们可以激活环境变量,命令:source /etc/profile启用pyspark。注意!!我是在root里面安装的所以,在root下执行,大家没有用root安装不需要进入root。
如下图:
在这里插入图片描述
我们发现是python2的版本,我们可以先退出,设置成python3的版本,但是python3得提前安装好。我的文章有讲:Centos7安装python3

设置python3,如图:在这里插入图片描述
重启pyspark,进入后,发现是python3的版本了,如下图:
在这里插入图片描述
我下面跟大家分享一些pyspark做数据处理的小例子。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
至此,大家觉得意犹未尽,可以再去网上查阅一些资料,我这里推荐以下几个地址,供大家参考:
链接一
链接二
链接三

最后,感谢大家前来观看鄙人的文章,文中或有诸多不妥之处,还望指出和海涵。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

不羁_神话

感谢支持,欢迎交流。

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值