Linux安装、运行单机版Spark
1 依赖 java jdk
2.安装spark
2.1 下载完成后使用工具上传到Linux服务器下,然后解压压缩包、为了操作方便改名:
tar -zxvf spark-2.3.1-bin-hadoop2.7.tgz
mv spark-2.3.1-bin-hadoop2.7 spark-2.3.1
2.2 配置环境变量:
2.2.1 配置系统的环境变量:
进入/etc/profile目录下:vim /etc/profile,会提示文件已存在,输入“e”进入编辑模式即可,
然后在文件的最后加上如下配置:
#Spark
export SPARK_HOME=/opt/spark-2.3.1
export PATH=$PATH:$SPARK_HOME/bin
然后键盘按下“Esc”,输入“:wq”保存退出vim编辑模式,最后:source /etc/profile 使文件修改生效。
2.2.2 配置spark的配置文件:
2.2.2.1 新建spark-env.sh配置文件(spark环境配置文件):
进入spark的conf目录下:cd /opt/spark-2.3.1/conf/,
copy一份spark-env.sh:cp spark-env.sh.template spark-env.sh
然后进入vim编辑模式:vim spark-env.sh,会提示文件已存在,输入“e”进入编辑模式即可。
在文件的最后加上如下配置:
#export SCALA_HOME=/opt/scala-2.13.0
export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk-1.8.0.181-3.b13.el7_5.x86_64 #这里是你jdk的安装路径
export SPARK_HOME=/opt/spark-2.3.1
export SPARK_MASTER_IP=XXX.XX.XX.XXX #将这里的xxx改为自己的Linux的ip地址
#export SPARK_EXECUTOR_MEMORY=512M
#export SPARK_WORKER_MEMORY=1G
#export master=spark://XXX.XX.XX.XXX:7070
最后“Esc”,输入“:wq”保存退出vim编辑模式,最后source spark-env.sh使修改生效。
```
2.2.2.2 新建slaves配置文件(子节点配置文件):
进入spark的conf目录下:cd /opt/spark-2.3.1/conf/,
copy一份slaves:cp slaves.template slaves
然后进入vim编辑模式:vim slaves,会提示文件已存在,输入“e”进入编辑模式即可。
在文件的最后加上如下配置:
localhost
最后“Esc”,输入“:wq”保存退出vim编辑模式
三. 启动spark。
进入spark的sbin目录:cd sbin/
启动spark集群(单机版): ./start-all.sh
会要求你输入linux的登录密码,使用jps命令可看到运行的master和worker进程,至此,单机版spark的搭建完成。
Web 网址10.66.210.101:8080
linux 下安装pip3
1.安装python3
先安装依赖包
yum -y install zlib-devel bzip2-devel openssl-devel ncurses-devel sqlite-devel readline-devel tk-devel gdbm-devel db4-devel libpcap-devel xz-devel
先安装wget yum install wget
然后去官网下载 yum install python3
安装pyspark pip3 install pyspark -i https://pypi.doubanio.com/simple/
输入pip3 -V 如果能显示pip版本,则安装成功
启动pyspark
运行python代码需要的配置
将mysql的依赖包放到Java的对应目录下
cp mysql-connector-java-5.1.18.jar /usr/java/jdk1.8.0_181-cloudera/jre/lib/ext
安装pandas
pip3 install --user pandas -i https://pypi.douban.com/simple
运行python文件
将py文件放到指定目录下,python3 con_test.py运行 运行成功实例