Hadoop的简单实例和遇到的问题

最近我在学hadoop,下面是我自己实践过的一些简单的实例,有最基本的单词计数(wordcount),数据去重,排序,单表关联和多表关联。

单词计数:大家应该都知道这个程序,就相当于java里面的第一个hello world程序一样,是hadoop中最基本的一个入门程序,是用来统计单词的个数,然后以(单词名,个数)的形式输出在文件里;

数据去重:让原始数据中出现次数超过一次的数据在输出文件中只出现一次;

排序:是对原始数据进行排序,比如数字从小到大排序,字符串按首字母的字母表顺序排序;

单表关联:从给出的数据中寻找出自己关心的数据,对原始数据所包含信息的挖掘,只针对一张表数据;

多表关联:跟单表关联类似,但是是针对两张表数据。

大家想要相关的实例从这个连接下载http://download.csdn.net/detail/chenyuangege/8713825


注意;在进行实例测试的时候,对输入文件的数据一定不要多出换行符和空格,我就是由于在一个输入文件中多出了两个换行和几个空格符导致代码不能输出正确的结果,把自己坑了半天。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值