摘要:
hadoop yarn调度pyspark在使用过程中,使用场景不一致,需要安装一些三方依赖,尤其在机器学习算法方面依赖许多科学包如numpy、pandas 、matlib等等,安装这些依赖是一个非常痛苦的过程,本章结合ti产品在私有化过程中依赖包及版本升级等为题进行简单介绍。
Spark on yarn分为client模式和cluster模式,在client模式下driver 会运行在提交节点上,该节点也可能不是yarn集群内部节点,这种方式可以根据自己的需要安装软件和依赖,以支撑spark application正常运行。而在cluster模式下,spark application运行的所有进程都在yarn集群的nodemanager上,具体那些节点不确定,这时候就需要集群中所有nodemanager都有运行python程序所需要的依赖包。 在智能钛私有化过程中是通过:anaconda进行包管理和初始环境安装。
初始安装:安装初始ancoda-》安装所需要的依赖包-》编写rpm编译脚本-》打包成rpm包:之所以采用rpm进行管理,是因为rpm包进行安装、升级、回退。维护相对比较方便,大数据平台ambari可以很好的完成rpm包的自动化安装部署升级。
Name: anaconda2
Version: 4.4.0
Release: 0
License: Restricted
Group: Apache/Hue
BuildRoot: %{_builddir}/%{name}-anaconda2
URL: http://gethue.com/
Vendor: Tencent
Packager: test
BuildArchitectures: x86_64
Requires: jdk >= 1.6
%descriptio