spark-2.4.7的搭建以及pyspark的简单例子

最新推荐文章于 2024-03-19 23:21:27 发布

不羁_神话

最新推荐文章于 2024-03-19 23:21:27 发布

阅读量1.8k

点赞数 3

分类专栏： Hadoop 文章标签： spark python

本文链接：https://blog.csdn.net/weixin_43408020/article/details/111599660

版权

Hadoop 专栏收录该内容

8 篇文章 0 订阅

订阅专栏

今天，接着跟大家分享一下spark的搭建，spark是一个分布式的计算框架，与MapReduce的区别在于可以准实时处理大数据，是Apache的顶级开源项目之一，目前呢spark稳定版本是spark-2.4.7，所以，我是用的spark-2.4.7，请各位朋友留意一下。关于spark呢，大家如果有兴趣可以自己再找一些资料查阅一下。

spark包的获取地址，大家根据hadoop版本，自行对应下载：spark-2.4.7
我选择的是在这里插入图片描述因为我的hadoop版本是hadoop-2.7.7的。

首先，将spark包传入到hadoop目录下面（我的是这样）
在这里插入图片描述
解压spark，命令：tar -zxvf spark-2.4.7-bin-hadoop2.7.tgz如下图：

重命名，如下图：

配置spark的环境变量，命令：vi /etc/profile如下图：

进入，spark的conf目录下面，如下图，复制一份spark-env.sh.template 为 spark-env.sh。如下图：
在这里插入图片描述
编辑一下spark-env.sh，如下图：

IP设置成自己的IP地址。

之后，我们可以激活环境变量，命令：source /etc/profile启用pyspark。注意！！我是在root里面安装的所以，在root下执行，大家没有用root安装不需要进入root。
如下图：
在这里插入图片描述
我们发现是python2的版本，我们可以先退出，设置成python3的版本，但是python3得提前安装好。我的文章有讲：Centos7安装python3