0570-如何在CDH集群上部署Python3.6.1环境及运行Pyspark作业

最新推荐文章于 2024-03-31 15:00:00 发布

Hadoop_SC

最新推荐文章于 2024-03-31 15:00:00 发布

阅读量784

点赞数

分类专栏： Hadoop实操

本文链接：https://blog.csdn.net/Hadoop_SC/article/details/103101398

版权

本文介绍了如何在CDH 5.16.1集群上使用Anaconda3部署Python3.6.1环境，并配置Spark2以运行Pyspark作业。详细步骤包括下载Anaconda、安装Python、修改CM的Spark2配置，以及通过spark2-submit提交Pyspark作业。最后，验证了作业执行成功并生成了正确结果。

摘要由CSDN通过智能技术生成

1 文档编写目的

当前有很多工具辅助大数据分析，但最受环境的就是Python。Python简单易用，语言有着直观的语法并且提供强大的科学计算和集群学习库。借着最近人工智能，深度学习的兴起，Python成为时下最火的语言，已经超越了Java和C，并且纳入了国家计算机等级考试。本篇文章主要讲述如何在CDH集群基于Anaconda安装包部署Python3.6.1的运行环境，并使用PySpark作业验证Python3环境的可行性。

测试环境

1.CM和CDH版本为5.16.1

2.集群已启用Kerberos

3.Spark 2.3.0.cloudera4

2 基于Anaconda部署Python3

注意在集群的每个节点都要部署python3.6.1，并且部署目录要相同，因为CDH自带了python2，所以如果需要将python替换成python3，需要在CM界面上修改PYSPARK_PYTHON的路径，下面会有说明。

下载anaconda安装包，这里选用的版本是Anaconda3-4.4.0-Linux-x86_64.sh，下载地址：https://repo.continuum.io/archive/Anaconda3-4.4.0-Linux-x86_64.sh，这个版本对应的Python版本是3.6.1。

1.进入到安装包目录，执行命令：bash Anaconda3-4.4.0-Linux-x86_64.sh

2.下一步输入回车键

3.在以下界面输入”yes”

4.下一步设置安装路径，我们这里安装在/opt/cloudera/anaconda3目录下

如果提示“tar (child): bzip2: Cannot exec: No such file or directory”，需要先安装bzip2。

[root@ip-172-31-13-38 ~]$ sudo yum -y install bzip2

5.安装完后，提示设置anaconda的PATH路径，这里需要设置全局路径，因为要确保pyspark任务提交过来之后可以使用python3，所以输入“no”，重新设置PATH

6.设置全局的anaconda3的PATH

[root@ip-172-31-13-38 ec2-user]# echo "export PATH=/opt/cloudera/anaconda3/bin:$PATH" >> /etc/profile
[root@ip-172-31-13-38 ec2-user]# source /etc

最低0.47元/天解锁文章

Hadoop_SC

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
0570-如何在CDH集群上部署Python3.6.1环境及运行Pyspark作业

1 文档编写目的当前有很多工具辅助大数据分析，但最受环境的就是Python。Python简单易用，语言有着直观的语法并且提供强大的科学计算和集群学习库。借着最近人工智能，深度学习的兴起，Python成为时下最火的语言，已经超越了Java和C，并且纳入了国家计算机等级考试。本篇文章主要讲述如何在CDH集群基于Anaconda安装包部署Python3.6.1的运行环境，并使用PySpark作业验证P...
复制链接

扫一扫