ubuntu配置Hadoop和Sprak

最新推荐文章于 2024-11-16 21:11:17 发布

pursuingparadise

最新推荐文章于 2024-11-16 21:11:17 发布

阅读量178

点赞数

文章标签： hadoop spark

本文链接：https://blog.csdn.net/pursuingparadise/article/details/103811077

版权

Spark安装配置
1.先去Scala和spark官网下安装包
在这里插入图片描述

2.通过如
sudo tar zxvf spark-3.0.0-preview-bin-hadoop3.2.tgz -C /usr/local/
解压安装。
在这里插入图片描述

3.文件夹改名
sudo mv spark-3.0.0-preview-bin-hadoop3.2 spark
在这里插入图片描述

4.配置~/.bashrc
在这里插入图片描述

5.配置配置spark-env.sh
进入到spark/conf/
cp spark-env.sh.template spark-env.sh
vim spark-env.sh
在这里插入图片描述

export JAVA_HOME=/home/ysc/Documents/Code_software/JDK-8/jdk1.8.0_231
export HADOOP_HOME=/usr/local/hadoop
export HADOOP_CONF_DIR=/usr/local/hadoop/etc/hadoop
export SCALA_HOME=/home/ysc/Documents/Code_software/scala/scala-2.13.1
export SPARK_HOME=/usr/local/spark
export SPARK_MASTER_IP=127.0.0.1
export SPARK_MASTER_PORT=7077
export SPARK_MASTER_WEBUI_PORT=8099
export SPARK_WORKER_CORES=3
export SPARK_WORKER_INSTANCES=1
export SPARK_WORKER_MEMORY=5G
export SPARK_WORKER_WEBUI_PORT=8081
export SPARK_EXECUTOR_CORES=1
export SPARK_EXECUTOR_MEMORY=1G
export LD_LIBRARY_PATH= ${LD_LIBRARY_PATH}:$ HADOOP_HOME/lib/native
在这里插入图片描述
java，hadoop等具体路径根据自己实际环境设置。

6.配置Slave
cp slaves.template slaves
在这里插入图片描述

默认就是localhost

7.启动（前提是hadoop伪分布已经启动）：
然后启动spark/sbin目录下的start-all.sh.
可能会出现如下问题：
在这里插入图片描述

后通过以下方法解决问题
在这里插入图片描述

成功启动
在这里插入图片描述

Spark的web界面：http://127.0.0.1:8099/

在这里插入图片描述
8.启动bin目录下的spark-shell
cd $SPARK_HOME/bin
./spark-shell

spark-shell的web界面http://127.0.0.1:4040
在这里插入图片描述

9.python中使用pyspark
当然了,我们在之后的开发过程中，不可能说只在这么一个解释器中开发，所以接下来我们要做的是让python能够加载spark的库。

所以我们需要把pyspark添加到python的寻找目录当中，同样我们需要编辑～/.bashrc文件，在最后添上

export PYTHONPATH=/usr/local/spark/python:/usr/bin/python

这样就把spark目录下的python库添加到了python的找寻目录中

但是由于python需要去调用java的库所以在/usr/local/spark/python路径下我们需要添加一个py4j的文件夹，这个文件可以在/usr/local/spark/python/lib目录下找到，在这个目录下有一个py4j-0.9-src.zip的压缩包，把他解压缩放到/usr/local/spark/python/目录下就可以了

sudo unzip -d /usr/local/spark/python py4j-0.9-src.zip

这个时候在任意目录下输入python
在这里插入图片描述

然后在这里输入 import pyspark

查看是否可以正确导入pyspark，如果没有出现任何提示，就说明pyspark能够正常导入。
这样就可以在任何地方编写.py文件，需要用到pyspark的地方用import导入即可。

10.pycharm导入pyspark
当然有些用户喜欢用pycharm来编写python，所以对于pycharm使用pyspark也做一下说明首先我们需要点击右上角的下拉框，选择 Edit Configurations…
在这里插入图片描述

然后在弹出的对话框中，点击Enviroment variables：右侧的编辑按钮
在这里插入图片描述

点击加号添加两条新的数据，
PYTHONPATH和
SPARK_HOME
数据内容和~/.bashrc中对应的内容相同

在这里插入图片描述

接下来是关键的一步，还要去配置其他的。很多网页上都只有到上一步。在perferences中的project structure中点击右边的“add content root”，添加py4j-some-version.zip和pyspark.zip的路径（这两个文件都在Spark中的python文件夹下）
在这里插入图片描述