机器学习_wordcount的一些问题

wordcount就是hadoop上的“hello world”,非常经典,弄清楚它可以快速的帮助我们理解hadoop一些相关概念和运行机制,

这里找了一篇好文,http://www.cnblogs.com/xia520pi/archive/2012/05/16/2504205.html

基本上把wordcount分析的非常透彻了,流程大概是这样子的

input->data->split->line(default)->mapper->combiner->reducer->output

但是还是有一个问题,就是当hadoop在split的时候,

如果将一个大的文本文件,切割成的部分中有断行怎么办?

又找一篇,作者分析了源码,http://www.cnblogs.com/dyllove98/p/3201248.html

当读到断行时,会去下一个split获取数据

关于reader的问题,还有自定义的inputFormat的方法,在这里有一篇

http://blog.sina.com.cn/s/blog_6a67b5c501010jb5.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值