spark集群计算节点python环境批量配置方法

在基于spark集群做算法开发与训练时,经常会遇到spark集群中work节点python环境不匹配的问题,若节点比较少,手工配置还可以,但当集群比较大时,比如上千个节点,那么手工配置python环境是不现实的,因此,撰写这篇博客,以解决该问题,具体如下:
注:一般情况下,要配置的集群均处于内网状态下,即不可以上网,所以此处重点以这种场景进行说明
步骤一、在本地联网的环境中,安装anaconda3,具体参考anaconda安装过程,此处不再赘述;
步骤二:创建虚拟环境(该环境为spark集群节点需要配置的python环境)

conda create -n pyspak-env python=3.7.4
#其中pyspak-env为新建的虚拟环境名称,可根据个人喜好定义
#python=3.7.4为要配置的python版本设置,根据需要进行设置,注跟spark任务提交时所在管控端保持版本匹配一致
conda activate pyspak-env
#启动新创建的虚拟环境
pip install pakgs
#pakgs为需要安装的python依赖包

步骤三:打包虚拟环境

#cd到anaconda3安装路径,找到envs路径
cd /root/anaconda3/envs
#查看你已创建过的虚拟环境,并找到你需要的那个虚拟环境
conda env list
#打包虚拟环境,注意打包全部虚拟环境
zip -r py.zip pyspak-env/
#其中py.zip为打包后的名字,可根据喜好自定义

步骤四:上传步骤3打包好的虚拟环境py.zip到spark集群所依赖的hdfs

#cd到包要上传到管控端的路径
cd /export/work/package
#上传打包文件到管控端
rz 
#切换hdfs用户
su hdfs
#上传包到hdfs
hdfs dfs -put py.zip /test/env/py.zip
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

山河念远之追寻

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值