0570-如何在CDH集群上部署Python3.6.1环境及运行Pyspark作业

本文介绍了如何在CDH 5.16.1集群上使用Anaconda3部署Python3.6.1环境,并配置Spark2以运行Pyspark作业。详细步骤包括下载Anaconda、安装Python、修改CM的Spark2配置,以及通过spark2-submit提交Pyspark作业。最后,验证了作业执行成功并生成了正确结果。
摘要由CSDN通过智能技术生成

1 文档编写目的

当前有很多工具辅助大数据分析,但最受环境的就是Python。Python简单易用,语言有着直观的语法并且提供强大的科学计算和集群学习库。借着最近人工智能,深度学习的兴起,Python成为时下最火的语言,已经超越了Java和C,并且纳入了国家计算机等级考试。本篇文章主要讲述如何在CDH集群基于Anaconda安装包部署Python3.6.1的运行环境,并使用PySpark作业验证Python3环境的可行性。

  • 测试环境

1.CM和CDH版本为5.16.1

2.集群已启用Kerberos

3.Spark 2.3.0.cloudera4

2 基于Anaconda部署Python3

注意在集群的每个节点都要部署python3.6.1,并且部署目录要相同,因为CDH自带了python2,所以如果需要将python替换成python3,需要在CM界面上修改PYSPARK_PYTHON的路径,下面会有说明。

下载anaconda安装包,这里选用的版本是Anaconda3-4.4.0-Linux-x86_64.sh,下载地址:https://repo.continuum.io/archive/Anaconda3-4.4.0-Linux-x86_64.sh,这个版本对应的Python版本是3.6.1。

1.进入到安装包目录,执行命令:bash Anaconda3-4.4.0-Linux-x86_64.sh

2.下一步输入回车键

3.在以下界面输入”yes”

4.下一步设置安装路径,我们这里安装在/opt/cloudera/anaconda3目录下

如果提示“tar (child): bzip2: Cannot exec: No such file or directory”,需要先安装bzip2。

[root@ip-172-31-13-38 ~]$ sudo yum -y install bzip2

5.安装完后,提示设置anaconda的PATH路径,这里需要设置全局路径,因为要确保pyspark任务提交过来之后可以使用python3,所以输入“no”,重新设置PATH

6.设置全局的anaconda3的PATH

[root@ip-172-31-13-38 ec2-user]# echo "export PATH=/opt/cloudera/anaconda3/bin:$PATH" >> /etc/profile
[root@ip-172-31-13-38 ec2-user]# source /etc
  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值