spark的搭建--Day4

最新推荐文章于 2022-05-11 15:22:17 发布

IT小浪

最新推荐文章于 2022-05-11 15:22:17 发布

阅读量379

点赞数 1

分类专栏：大数据文章标签： spark 大数据

本文链接：https://blog.csdn.net/qq_36297434/article/details/89341704

版权

大数据专栏收录该内容

8 篇文章 0 订阅

订阅专栏

一：安装并配置scala

export SCALA_HOME=/usr/local/scala/scala-2.11.12
export PATH=$PATH:$SCALA_HOME/bin

二：安装配置spark

1：配置环境变量

export SPARK_HOME=/usr/local/spark/spark-2.3.1-bin-hadoop2.6
export PATH=$PATH:$SPARK_HOME/bin

执行命令：source ~/.bashrc

2：修改日志配置

将spark/conf下的og4j.properties.template重命名为log4j.properties，并将所有INFO改为WARN

3：创建并修改spark.env.sh

将spark/conf下的spark-env.sh.template重命名为 spark-env.sh，并添加如下配置

export JAVA_HOME=/usr/local/java/jdk1.8.0_161 
export SPARK_MASTER_IP=master
export SPARK_WORKER_CORES=1
export SPARK_WORKER_MEMORY=100m
export SPARK_WORKER_INSTANCES=1

三：集群配置

1：spark基本配置

与单机相同

2：配置slaves

将spark/conf下的slaves.template重命名slaves，并添加IP映射名，如下、

slaver1
slaver2

四：spark的启动

1：启动服务

进入sbin目录下，执行

./start-all.sh

2：启动客户端

因为配置了全局变量，所以直接执行命令

scala:

spark-shell

python

pyspark

3：关闭客户端

scala:

exit()

python

exit()

4:关闭服务

进入sbin目录下，执行

./stop-all.sh

五：配置ipython

1：安装pip

sudo apt-get install python-pip

2：安装ipython

sudo apt-get install ipython

3：设置pyspark启动ipython

修改spark/bin目录下的pyspark文件

六：配置spark运行的环境变量

1：在~/.bashrc中

export  LD_LIBRARY_PATH=$HADOOP_HOME/lib/native
export SPARK_HOME=spark安装目录
export PYTHONPATH=$SPARK_HOME/python:$SPARK_HOME/python/lib/py4j-0.10.7-src.zip:$PYTHONPATH

2：在spark/conf/spark-env.sh中

export  LD_LIBRARY_PATH=$HADOOP_HOME/lib/native

IT小浪

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录