用python在hadoop上运行wordcount

最新推荐文章于 2024-07-22 17:41:13 发布

yza而已

最新推荐文章于 2024-07-22 17:41:13 发布

阅读量1.1k

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/sinat_29373157/article/details/50296115

版权

1.

gedit wordcount_mapper.py

gedit wordcount_reducer.py

2.

chmod 775 wordcount_mapper.py

chmod 775 wordcount_reducer.py

3.上传测试文件到HDFS

hadoop fs -put testfile1 input/py

hadoop fs -put testfile2 input/py

4.用streaming方法运行

在/usr/hadoop/hadoop-2.6.0/share/hadoop/tools/lib下

hadoop jar hadoop-streaming-2.6.0.jar -input input/py -output pyout/(这个事先不能在HDFS中存在) -mapper /usr/hadoop/pytest/wordcount_mapper.py -reducer /usr/hadoop/pytest/wordcount_reducer.py

http://hadoop.apache.org/docs/r2.6.0/hadoop-mapreduce-client/hadoop-mapreduce-client-core/HadoopStreaming.html#Hadoop_Streaming

12/8

更新：我终于能够用streaming跑出python结果了，

jxxy@node7:/usr/hadoop/hadoop-2.6.0/share/hadoop/tools/lib hadoop jar hadoop-streaming-2.6.0.jar -input input/py/* -output py_out6 -mapper /home/jxxy/hadoop/Wordcount_mapper.py -reducer /home/jxxy/hadoop/Wordcount_reducer.py -file /home/jxxy/hadoop/Wordcount_mapper.py -file /home/jxxy/hadoop/Wordcount_reducer.py

查来查去，首先Python的代码要求就是要对齐。。用Pycharm什么的检查一下吧。。。然后还需要对每一个位置都要了解。果然是要加上 -file指令来指定位置

12/9

今天用streaming做data join

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
用python在hadoop上运行wordcount

1.gedit wordcount_mapper.pygedit wordcount_reducer.py2.chmod 775 wordcount_mapper.pychmod 775 wordcount_reducer.py3.上传测试文件到HDFShadoop fs -put testfile1 input/pyhadoop fs -put t
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。