一:安装并配置scala
export SCALA_HOME=/usr/local/scala/scala-2.11.12
export PATH=$PATH:$SCALA_HOME/bin
二:安装配置spark
1:配置环境变量
export SPARK_HOME=/usr/local/spark/spark-2.3.1-bin-hadoop2.6
export PATH=$PATH:$SPARK_HOME/bin
执行命令:source ~/.bashrc
2:修改日志配置
将spark/conf下的og4j.properties.template重命名为log4j.properties,并将所有INFO改为WARN
3:创建并修改spark.env.sh
将spark/conf下的spark-env.sh.template重命名为 spark-env.sh,并添加如下配置
export JAVA_HOME=/usr/local/java/jdk1.8.0_161
export SPARK_MASTER_IP=master
export SPARK_WORKER_CORES=1
export SPARK_WORKER_MEMORY=100m
export SPARK_WORKER_INSTANCES=1
三:集群配置
1:spark基本配置
与单机相同
2:配置slaves
将spark/conf下的slaves.template重命名slaves,并添加IP映射名,如下、
slaver1
slaver2
四:spark的启动
1:启动服务
进入sbin目录下,执行
./start-all.sh
2:启动客户端
因为配置了全局变量,所以直接执行命令
scala:
spark-shell
python
pyspark
3:关闭客户端
scala:
exit()
python
exit()
4:关闭服务
进入sbin目录下,执行
./stop-all.sh
五:配置ipython
1:安装pip
sudo apt-get install python-pip
2:安装ipython
sudo apt-get install ipython
3:设置pyspark启动ipython
修改spark/bin目录下的pyspark文件
六:配置spark运行的环境变量
1:在~/.bashrc中
export LD_LIBRARY_PATH=$HADOOP_HOME/lib/native
export SPARK_HOME=spark安装目录
export PYTHONPATH=$SPARK_HOME/python:$SPARK_HOME/python/lib/py4j-0.10.7-src.zip:$PYTHONPATH
2:在spark/conf/spark-env.sh中
export LD_LIBRARY_PATH=$HADOOP_HOME/lib/native