MapReduce操作实践

实验内容与要求:

  1. MapReduce基本知识总结
  2. MapReduce的操作实践
    2.1 基于MapReduce的WordCount实践:统计每个单词出现的次数
    2.2 自定义Hadoop数据类型实践:自定义hadoop数据类型,在统计每个单词出现次数的过程中,同时计算每个单词的长度
    2.3 多mapReduce任务的串联实践:基于MapReduce统计共有多少个单词,而不是每个单词出现的次数

1. MapReduce基本知识的总结

MapReduce是一个运行在Hadoop上的分布式计算框架,用于处理大规模的数据,计算的思想是“分治法”,将大量数据分为不互相依赖的数据块,存储在不同的datanode上,由map函数处理形成部分数据的处理结果,再由reduce函数整合形成最终的结果。
一个map函数处理一个<key1,value1>数据,map端的shuffle阶段将<key1,value1>转化为<key1,value-list>形式,减少数据传输的工作量,reduce端的shuffle阶段将map端对应分区数据取回reduce端,对数据按键值排序,reduce函数将<key1,value-list>的数据合并,转为<key2,value2>。
Hadoop的数据类型是对java数据类型的封装,便于进行序列化处理,使不同的数据以统一的格式在集群中存储传输,参考Hadoop的text类型源码,可以自定义wordcountandlen数据类型,输出每个单词的总数和长度。
有时一个MapReduce过程无法得到想要的结果,可以通过多mapre任务的串

  • 3
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值