pyspark依赖第三方库

本文介绍了在Spark集群上使用第三方库时遇到的问题及解决方案。包括通过virtualenv创建独立的虚拟环境,利用anaconda进行包和环境管理,并详细探讨了如何在Yarn上部署pyspark与Redis的交互。
摘要由CSDN通过智能技术生成

问题描述

想在集群中使用第三方库,不知道怎么上传相关的依赖关系。


参考办法

开始找到相关解决方法主要有两种:

  • 一是通过virtualenv为每个程序创建互不干扰的虚拟环境来运行;
  • 二是通过anaconda进行安装包和环境的管理。
相关教程:
但是上面的教程解决的都是driver(master)的环境问题,并没有解决worker(executer,slaver)的问题。而且对于实际情况,并不能保证打包环境和slave端的运行环境一致。

后来参考了Yarn的Pypark如何与Redis交互

实际操作

情况介绍:服务器A中安装了需要依赖的package,服务器B中有相关代码ÿ
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值