Hadoop运行python作业时的依赖于其他库的问题

用hadoop streaming可以运行python写的map-reduce作业。但是如果map/reduce依赖于其他库呢?比如,map中依赖于我们自己写的一个库:hadoop_lib.py中的某些方法。这时在运行streaming作业的时候,如果还是像原来一样的命令行,就会出现”Broken Pipe”之类的异常。解决方法就是加上-file参数,并加上依赖的库文件。如果有多个依赖的文件,可以用多次-file参数,或者用-files。这样实际上hadoop是把文件放入它的分布式缓存中,然后在执行task的目录创建一个到实际文件的链接。

而在map.py/reduce.py中,我们直接导入即可:

importhadoop_lib

 

这个依赖库默认是和map/reduce程序在同一路径下。这对于开发可不太好,总不能把lib里的东西都放到特定作业的目录里来吧。我们可以这么做:

先创建lib的目录,比如/hadoop/lib,并把hadoop_lib.py库文件放到这个目录中。

然后在map.py/reduce.py中加上:

importsys;

sys.path.append(‘/hadoop/lib’);

importhadoop_lib

 

这时,如果程序是在本地测试,因为/hadoop/lib已经加入到path中,程序能够正确地找到库文件。而如果是在运行task的远程节点上,由于库文件和map/reduce是在同一目录,它仍能正确地找到,只不过sys.path.append这一行没有用罢了。


  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值