Hadoop学习
文章平均质量分 93
Never-Giveup
这个作者很懒,什么都没留下…
展开
-
详解mrjob输入输出协议(Protocols)
demofrom mrjob.job import MRJobclass MRWordCount(MRJob): def mapper(self, key, line): print('key---',key) for word in line.split(): yield(word, 1) def reducer(self, wor...原创 2018-12-06 20:43:06 · 1868 阅读 · 0 评论 -
Hadoop streaming运行python程序如何设置map和reduce的个数(python)
Hadoop Streaming给许多语言(java,scala,python,C等)提供了使用Hadoop和编写Mapreduce的接口。在实际工作中,我选择python来做大数据处理,在编写mapreduce作业时,经常遇到map和reduce的个数怎么设置,因为它们的个数决定着程序运行的效率和一些其它方面的因素(例如对于一个大的数据集,如果使用一个map来处理,很容易造成该节点的内存等不足)...原创 2019-01-07 22:22:18 · 2517 阅读 · 0 评论