CDH5.12.1版本安装Spark2

最新推荐文章于 2021-01-13 16:36:49 发布

StudyWell_Lin

最新推荐文章于 2021-01-13 16:36:49 发布

阅读量545

点赞数

分类专栏： cdh 文章标签： cloudera

本文链接：https://blog.csdn.net/weixin_41538547/article/details/106871253

版权

cdh 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

cdh每次安装软件我都不熟悉，这次写一篇博客吧
由于官网说了spark1和spark2是可以共存的，所以我就不删除spark1了：
在这里插入图片描述
官网地址如下：https://docs.cloudera.com/documentation/spark2/2-1-x/topics/spark2_requirements.html#cm_versions

流程：
1、先下载spark2对应的spark on yarn的jar包，地址如下：
http://archive.cloudera.com/spark2/csd/
我下载的是SPARK2_ON_YARN-2.1.0.cloudera1.jar这个。
2.在Linux下面新建一个文件夹：mkdir -p /opt/cloudera/csd/ ，并将jar包放置到这个目录下，设置权限：chown -R cloudera-scm:cloudera-scm /opt/cloudera
并且这个目录下只能有一个这样的jar包，否则cdh会识别不出使用哪一个
补充说明：关于为什么要新建这个目录，因为官网就是这么说的，如下
在这里插入图片描述
下面地址是上面图片的具体说明
https://docs.cloudera.com/documentation/spark2/2-1-x/topics/spark2_installing.html

补充说明：为什么要下载这个版本：
在这里插入图片描述
地址如下：
https://docs.cloudera.com/documentation/spark2/2-1-x/topics/spark2_requirements.html

3、下载parcles：如下是我下载的
SPARK2-2.1.0.cloudera1-1.cdh5.7.0.p0.120904-el6.parcel和SPARK2-2.1.0.cloudera1-1.cdh5.7.0.p0.120904-el6.parcel.sha1
Parcels 包的下载地址：
http://archive.cloudera.com/spark2/parcels/2.2.0.cloudera1/

4、上传到你cdh指定的本地目录下，一般都是这个：/opt/cloudera/parcel-repo，并执行如下命令：
mv SPARK2-2.1.0.cloudera1-1.cdh5.7.0.p0.120904-el6.parcel.sha1 SPARK2-2.1.0.cloudera1-1.cdh5.7.0.p0.120904-el6.parcel.sha
如果你不清楚的话，可以这样看地址：
在这里插入图片描述

5、上传完就重启
我的命令如下：
scm:
/opt/module/cm/cm-5.12.1/etc/init.d/cloudera-scm-server restart (主节点上一次就够了)
agent:
/opt/module/cm/cm-5.12.1/etc/init.d/cloudera-scm-agent restart（3次，三个节点都要）
6、打开cdh，找到parcle页面，点击检查更新parcle,如果还是只显示
在这里插入图片描述
这样下载的页面，那就证明你的parcle版本cdh识别不到，换一个低一点的版本试试看

7、一切正常的话spark2那个位置可以显示允许激活分配的，你点击分配

8、分配完毕，进行添加spark2服务的添加
在这里插入图片描述
9、添加spark2

10、

11、我的是这个

12、

13、
在这里插入图片描述
14、

15
在这里插入图片描述

16最后最重要的一步来了老弟
这一步真的很坑爹
找到你的spark2的spark-env.sh 配置文件，我的是在：
/opt/cloudera/parcels/SPARK2/lib/spark2/conf/spark-env.sh
加入如下内容：

export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/opt/cloudera/parcels/HADOOP_LZO/lib/hadoop/lib/native
export SPARK_LIBRARY_PATH=$SPARK_LIBRARY_PATH:/opt/cloudera/parcels/HADOOP_LZO/lib/hadoop/lib/native
export SPARK_CLASSPATH=$SPARK_CLASSPATH:/opt/cloudera/parcels/HADOOP_LZO/lib/hadoop/lib/*

然后你才可以运行，这一步很重要，给点掌声哈！！！！！！

具体原因：你可以参考我以前写过的博客：
https://blog.csdn.net/weixin_41538547/article/details/105758286

16.最后运行一个任务试试看：

在spark2-shell上执行如下语句：
val df = spark.read.json("/opt/module/input/employees.json")
，竟然，又报错了

在这里插入图片描述
这报的的是资源不足的问题，我去yarn上查看一下：

就是这个任务耗费我所以内存了，我先杀掉这个任务，

然后重新提交就可以了
简直不要太完美
另外附上杀掉任务的shell命令
HADOOP 上经常会对一个application进行一系列操作：
操作命令如下：
yarn application -list 查看yarn上面所有的application
yarn application -list -appStates RUNNING 查看 yarn上面真正running的application
yarn application -list -appTypes MAPREDUCE 查看目前yarn上面类型是 MapReduce的任务
yarn application -status application_1526100291229_206393 查看具体某个application的状态
yarn application -kill application_1526100291229_206393 删除具体某个application的
yarn application -appId application_1478676388082_963529 -updatePriority VERY_HIGH 调整队列的优先级
yarn application -movetoqueue application_1478676388082_963529 -queue root.etl 修改队列

StudyWell_Lin

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
CDH5.12.1版本安装Spark2

cdh每次安装软件我都不熟悉，这次写一篇博客吧流程：1、先下载spark2对应的spark on yarn的jar包，地址如下：http://archive.cloudera.com/spark2/csd/我下载的是SPARK2_ON_YARN-2.1.0.cloudera1.jar这个补充说明：这里有如何放置SPARK2_ON_YARN-2.1.0.cloudera1.jar这个包的说明https://docs.cloudera.com/documentation/spark2/2-1-x
复制链接

扫一扫

专栏目录