spark大数据技术开发系列教程-环境搭建（一）

最新推荐文章于 2024-05-03 03:02:26 发布

huazi99

最新推荐文章于 2024-05-03 03:02:26 发布

阅读量145

点赞数

文章标签：大数据 spark 分布式

本文链接：https://blog.csdn.net/huazi99/article/details/134244521

版权

（一）操作系统环境

1、安装vm17(低版本gui界面死机)
2、安装centos 带gui界面

（二）软件环境

1、上传软件

Home下新建文件夹software，将相关软件用ftp软件copy
Home下新建app文件夹，用于安装文件
在这里插入图片描述

2、安装jdk1.8

解压：
[admin@localhost software]$ tar -zxvf jdk1.8.0_221.tar.gz -C /home/app/

编辑配置文件：
[admin@localhost jdk1.8.0_221]$ vi ~/.bash_profile
export JAVA_HOME=/home/app/jdk1.8.0_221
export PATH= $JAVA_HOME/bin:$ PATH
按esc，输入 :wq 保存退出

生成文件，查看
[admin@localhost jdk1.8.0_221]$ source ~/.bash_profile
[admin@localhost jdk1.8.0_221]$ echo $JAVA_HOME
/home/app/jdk1.8.0_221

3、安装scala

[admin@localhost software]$ tar -zxvf scala-2.13.11.tgz -C /home/app/

编辑配置文件：
vi ~/.bash_profile
PATH= $P A T H :$ HOME/.local/bin: $HOME/bin export JAVA_HOME=/home/app/jdk1.8.0_221 export PATH=$ JAVA_HOME/bin: $PATH export SCALA_HOME=/home/app/scala-2.13.11 export PATH=$ SCALA_HOME/bin:$PATH

$ source ~/.bash_profile

任意目录下输入：scala，出现输入命令界面
scala>

4、安装hadoop

$ tar -zxvf hadoop-3.2.3.tar.gz -C /home/app/

$ vi ~/.bash_profile
export HADOOP_HOME=/home/app/hadoop-3.2.3
export PATH= $HADOOP_HOME/bin:$ PATH
export HDFS_NAMENODE_USER=root
export HDFS_DATANODE_USER=root
export HDFS_SECONDARYNAMENODE_USER=root
export YARN_RESOURCEMANAGER_USER=root
export YARN_NODEMANAGER_USER=root

$ source ~/.bash_profile

admin@localhost ~]$ cd $HADOOP_HOME [admin@localhost hadoop-3.2.3]$ 可进入hadoop文件目录
[admin@localhost hadoop-3.2.3]$ cd etc/hadoop

编辑 hadoop-env.sh
[admin@localhost hadoop]$ vi hadoop-env.sh
# export JAVA_HOME=
export JAVA_HOME=/home/app/jdk1.8.0_221

编辑 core-site.xml
vi core-site.xml

fs.default.name
hdfs://myhost:8020

编辑 hdfs-site.xml
vi hdfs-site.xml

dfs.namenode.name.dir
/home/app/tmp/dfs/name

dfs.datanode.data.dir
/home/app/tmp/dfs/data

dfs.replication
1

编辑vi mapred-site.xml
vi mapred-site.xml

mapreduce.framework.name
yarn

编辑 vi yarn-site.xml

yarn.nodemanager.aux-services
mapreduce_shuffle

格式化节点：
[root@myhost hadoop-3.2.3]# cd bin
[root@myhost bin]# ./hadoop namenode -format

启动hadoop
[root@myhost hadoop-3.2.3]# cd sbin
[root@myhost sbin]# ./start-dfs.sh

5、安装maven

tar -zxvf apache-maven-3.6.1-bin.tar.gz -C /home/app/ 解压

配置环境变量
vi ~/.bash_profile
export MAVEN_HOME=/home/app/apache-maven-3.6.1
export PATH= $MAVEN_HOME/bin:$ PATH

source ~/.bash_profile

编辑：settings.xml
进入目录：apache-maven-3.6.1/conf/
vi settings.xml
在app文件夹中新建文件夹：maven_repository
/home/app/maven_repository

运行：
[root@myhost conf]# mvn

6、安装python

由于Python-3.7.4.tgz非解压就能用，在linux下需要安装
（1）解压
tar -zxvf Python-3.7.4.tgz -C /home/app/
加压后，home/app/Python-3.7.4 有文件目录
（2）在home/app下新建python3文件夹
源码的安装一般由3个步骤组成：配置(configure)、编译(make)、安装(makeinstall)。
（3）配置安装路径
[root@myhost Python-3.7.4]# ./configure --prefix=/home/app/python3
配置安装的路径，如果不配置该选项，安装后可执行文件默认放在/usr/local/bin
（4）安装
[root@myhost Python-3.7.4]#make && make install

注意：安装过程中会报错
[1]zipimport.ZipImportError: can‘t decompress data; zlib not availabl
解决：在解压后的 Python-3.7.4/Modules/Setup.dist 找到setup文件
将 #zlib zlibmodule.c -I $(p re f i x) / in c l u d e - L$ (exec_prefix)/lib -lz
前面的#即注释去掉

[2]ModuleNotFoundError: No module named ‘_ctypes’
手动安装Python3.7及以上版本时，在make install步骤中会出现缺少依赖（缺少_ctype）的错误提示
在python3.X中用到了_ctype组件，但他又必须依赖于另外一个叫libffi-devel的组件，所以我们需要先行安装
#执行以下命令
yum install libffi-devel
会有提问，输入y
以上解决完，再次执行：make && make install

(5)配置文件
[root@myhost Python-3.7.4]#vi ~/.bash_profile
export PYTHON_HOME=/home/app/python3
export PATH= $PYTHON_HOME/bin:$ PATH

[root@myhost Python-3.7.4]#source ~/.bash_profile

（6）执行python
[root@myhost Python-3.7.4]#python3 注意版本号已经为最新的

7、spark安装及启动

[root@myhost bin]# tar -zxvf spark-3.2.1-bin-hadoop3.2.tgz -C /home/app/
运行
[root@myhost bin]# ./spark-shell
http://myhost:4040/jobs/
在这里插入图片描述

8、 pyspark启动（python3必须能正常运行）

[root@myhost spark-3.2.1-bin-hadoop3.2]# cd bin
[root@myhost bin]# ./pyspark

在这里插入图片描述

huazi99

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
spark大数据技术开发系列教程-环境搭建（一）

在python3.X中用到了_ctype组件，但他又必须依赖于另外一个叫libffi-devel的组件，所以我们需要先行安装。tar -zxvf apache-maven-3.6.1-bin.tar.gz -C /home/app/ 解压。解决：在解压后的 Python-3.7.4/Modules/Setup.dist 找到setup文件。配置安装的路径，如果不配置该选项，安装后可执行文件默认放在/usr/local/bin。加压后，home/app/Python-3.7.4 有文件目录。
复制链接

扫一扫