CDH5.12.1版本安装Spark2

cdh每次安装软件我都不熟悉,这次写一篇博客吧
由于官网说了spark1和spark2是可以共存的,所以我就不删除spark1了:
在这里插入图片描述
官网地址如下:https://docs.cloudera.com/documentation/spark2/2-1-x/topics/spark2_requirements.html#cm_versions

流程:
1、先下载spark2对应的spark on yarn的jar包,地址如下:
http://archive.cloudera.com/spark2/csd/
我下载的是SPARK2_ON_YARN-2.1.0.cloudera1.jar这个。
2.在Linux下面新建一个文件夹:mkdir -p /opt/cloudera/csd/ ,并将jar包放置到这个目录下,设置权限:chown -R cloudera-scm:cloudera-scm /opt/cloudera
并且这个目录下只能有一个这样的jar包,否则cdh会识别不出使用哪一个
补充说明:关于为什么要新建这个目录,因为官网就是这么说的,如下
在这里插入图片描述
下面地址是上面图片的具体说明
https://docs.cloudera.com/documentation/spark2/2-1-x/topics/spark2_installing.html

补充说明:为什么要下载这个版本:
在这里插入图片描述
地址如下:
https://docs.cloudera.com/documentation/spark2/2-1-x/topics/spark2_requirements.html

3、下载parcles:如下是我下载的
SPARK2-2.1.0.cloudera1-1.cdh5.7.0.p0.120904-el6.parcel和SPARK2-2.1.0.cloudera1-1.cdh5.7.0.p0.120904-el6.parcel.sha1
Parcels 包的下载地址:
http://archive.cloudera.com/spark2/parcels/2.2.0.cloudera1/

4、上传到你cdh指定的本地目录下,一般都是这个:/opt/cloudera/parcel-repo,并执行如下命令:
mv SPARK2-2.1.0.cloudera1-1.cdh5.7.0.p0.120904-el6.parcel.sha1 SPARK2-2.1.0.cloudera1-1.cdh5.7.0.p0.120904-el6.parcel.sha
如果你不清楚的话,可以这样看地址:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
5、上传完就重启
我的命令如下:
scm:
/opt/module/cm/cm-5.12.1/etc/init.d/cloudera-scm-server restart (主节点上一次就够了)
agent:
/opt/module/cm/cm-5.12.1/etc/init.d/cloudera-scm-agent restart(3次,三个节点都要)
6、打开cdh,找到parcle页面,点击检查更新parcle,如果还是只显示
在这里插入图片描述
这样下载的页面,那就证明你的parcle版本cdh识别不到,换一个低一点的版本试试看

7、一切正常的话spark2那个位置可以显示允许激活分配的,你点击分配

8、分配完毕,进行添加spark2服务的添加
在这里插入图片描述
9、添加spark2
在这里插入图片描述
10、
在这里插入图片描述
11、我的是这个
在这里插入图片描述
12、
在这里插入图片描述

13、
在这里插入图片描述
14、
在这里插入图片描述

15
在这里插入图片描述

16最后最重要的一步来了老弟
这一步真的很坑爹
找到你的spark2的spark-env.sh 配置文件,我的是在:
/opt/cloudera/parcels/SPARK2/lib/spark2/conf/spark-env.sh
加入如下内容:

export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/opt/cloudera/parcels/HADOOP_LZO/lib/hadoop/lib/native
export SPARK_LIBRARY_PATH=$SPARK_LIBRARY_PATH:/opt/cloudera/parcels/HADOOP_LZO/lib/hadoop/lib/native
export SPARK_CLASSPATH=$SPARK_CLASSPATH:/opt/cloudera/parcels/HADOOP_LZO/lib/hadoop/lib/*

然后你才可以运行,这一步很重要,给点掌声哈!!!!!!

具体原因:你可以参考我以前写过的博客:
https://blog.csdn.net/weixin_41538547/article/details/105758286

16.最后运行一个任务试试看:

在spark2-shell上执行如下语句:
val df = spark.read.json("/opt/module/input/employees.json")
,竟然,又报错了

在这里插入图片描述
这报的的是资源不足的问题,我去yarn上查看一下:
在这里插入图片描述
就是这个任务耗费我所以内存了,我先杀掉这个任务,
在这里插入图片描述
然后重新提交就可以了
简直不要太完美
另外附上杀掉任务的shell命令
HADOOP 上经常会对一个application进行一系列操作:
操作命令如下:
yarn application -list 查看yarn上面所有的application
yarn application -list -appStates RUNNING 查看 yarn上面真正running的application
yarn application -list -appTypes MAPREDUCE 查看目前yarn上面类型是 MapReduce的任务
yarn application -status application_1526100291229_206393 查看具体某个application的状态
yarn application -kill application_1526100291229_206393 删除具体某个application的
yarn application -appId application_1478676388082_963529 -updatePriority VERY_HIGH 调整队列的优先级
yarn application -movetoqueue application_1478676388082_963529 -queue root.etl 修改队列

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值