PySpark包依赖问题解决方案及实践

最新推荐文章于 2024-04-28 02:36:38 发布

house.zhang

最新推荐文章于 2024-04-28 02:36:38 发布

阅读量2.9k

点赞数 1

分类专栏：人工智能云计算文章标签：大数据 spark 人工智能

本文链接：https://blog.csdn.net/pop_xiaohao/article/details/107898867

版权

摘要：

hadoop yarn调度pyspark在使用过程中，使用场景不一致，需要安装一些三方依赖，尤其在机器学习算法方面依赖许多科学包如numpy、pandas 、matlib等等，安装这些依赖是一个非常痛苦的过程，本章结合ti产品在私有化过程中依赖包及版本升级等为题进行简单介绍。

Spark on yarn分为client模式和cluster模式，在client模式下driver 会运行在提交节点上，该节点也可能不是yarn集群内部节点，这种方式可以根据自己的需要安装软件和依赖，以支撑spark application正常运行。而在cluster模式下，spark application运行的所有进程都在yarn集群的nodemanager上，具体那些节点不确定，这时候就需要集群中所有nodemanager都有运行python程序所需要的依赖包。在智能钛私有化过程中是通过：anaconda进行包管理和初始环境安装。

初始安装：安装初始ancoda-》安装所需要的依赖包-》编写rpm编译脚本-》打包成rpm包：之所以采用rpm进行管理，是因为rpm包进行安装、升级、回退。维护相对比较方便，大数据平台ambari可以很好的完成rpm包的自动化安装部署升级。

Name: anaconda2
Version: 4.4.0
Release: 0
License: Restricted
Group: Apache/Hue
BuildRoot: %{_builddir}/%{name}-anaconda2
URL: http://gethue.com/
Vendor: Tencent
Packager: test
BuildArchitectures: x86_64
Requires: jdk >= 1.6 
%descriptio

最低0.47元/天解锁文章

house.zhang

关注

1
点赞
踩
10

收藏

觉得还不错? 一键收藏
打赏
1
评论
PySpark包依赖问题解决方案及实践

摘要：hadoop yarn调度pyspark在使用过程中，使用场景不一致，需要安装一些三方依赖，尤其在机器学习算法方面依赖许多科学包如numpy、pandas 、matlib等等，安装这些依赖是一个非常痛苦的过程，本章结合ti产品在私有化过程中依赖包及版本升级等为题进行简单介绍。Spark on yarn分为client模式和cluster模式，在client模式下driver 会运行在提交节点上，该节点也可能不是yarn集群内部节点，这种方式可以根据自己的需要安装软件和依赖，以支撑spark app
复制链接

扫一扫