1 文档编写目的
当前有很多工具辅助大数据分析,但最受环境的就是Python。Python简单易用,语言有着直观的语法并且提供强大的科学计算和集群学习库。借着最近人工智能,深度学习的兴起,Python成为时下最火的语言,已经超越了Java和C,并且纳入了国家计算机等级考试。本篇文章主要讲述如何在CDH集群基于Anaconda安装包部署Python3.6.1的运行环境,并使用PySpark作业验证Python3环境的可行性。
- 测试环境
1.CM和CDH版本为5.16.1
2.集群已启用Kerberos
3.Spark 2.3.0.cloudera4
2 基于Anaconda部署Python3
注意在集群的每个节点都要部署python3.6.1,并且部署目录要相同,因为CDH自带了python2,所以如果需要将python替换成python3,需要在CM界面上修改PYSPARK_PYTHON的路径,下面会有说明。
下载anaconda安装包,这里选用的版本是Anaconda3-4.4.0-Linux-x86_64.sh,下载地址:https://repo.continuum.io/archive/Anaconda3-4.4.0-Linux-x86_64.sh,这个版本对应的Python版本是3.6.1。
1.进入到安装包目录,执行命令:bash Anaconda3-4.4.0-Linux-x86_64.sh
2.下一步输入回车键
3.在以下界面输入”yes”
4.下一步设置安装路径,我们这里安装在/opt/cloudera/anaconda3目录下
如果提示“tar (child): bzip2: Cannot exec: No such file or directory”,需要先安装bzip2。
[root@ip-172-31-13-38 ~]$ sudo yum -y install bzip2
5.安装完后,提示设置anaconda的PATH路径,这里需要设置全局路径,因为要确保pyspark任务提交过来之后可以使用python3,所以输入“no”,重新设置PATH
6.设置全局的anaconda3的PATH
[root@ip-172-31-13-38 ec2-user]# echo "export PATH=/opt/cloudera/anaconda3/bin:$PATH" >> /etc/profile
[root@ip-172-31-13-38 ec2-user]# source /etc