MapReduce
chipeize
这个作者很懒,什么都没留下…
展开
-
Hadoop_day05_MapReduce相关概念
1.MapReduce介绍 MapReduce思想在生活中处处可见。或多或少都曾接触过这种思想。MapReduce的思想核心是“分而治之”,适用于大量复杂的任务处理场景(大规模数据处理场景)。 Map负责“分”,即把复杂的任务分解为若干个“简单的任务”来并行处理。可以进行拆分的前提是这些小任务可以并行计算,彼此间几乎没有依赖关系。 Reduce负责“合”,即对ma...原创 2019-08-20 19:39:20 · 123 阅读 · 0 评论 -
Hadoop_day05_MapReduce 的入门案例(WordCount:统计单词出现次数)
1. 数据格式准备1.1 创建一个新的文件cd /export/serversvim wordcount.txt1.2 向其中放入以下内容并保存hello,world,hadoophive,sqoop,flume,hellokitty,tom,jerry,worldhadoop1.3 上传到 HDFShdfs dfs -mkdir /wordcount/hd...原创 2019-08-20 19:45:52 · 326 阅读 · 0 评论 -
Hadoop_day05_MapReduce 的 Shuffle 详解(分区、排序、规约、分组)
一、分区在 MapReduce 中, 通过我们指定分区, 会将同一个分区的数据发送到同一个 Reduce 当中进行处理 例如: 为了数据的统计, 可以把一批类似的数据发送到同一个 Reduce 当中, 在同一个 Reduce 当中统计相同类型的数据, 就可以实现类似的数据分区和统计等 其实就是相同类型的数据, 有共性的数据, 送到一起去处理 ...原创 2019-08-20 20:04:13 · 1178 阅读 · 0 评论 -
Hadoop_day05_MapReduce 的 经典案例(流量统计)
需求一:统计求和 统计每个手机号的上行数据包总和,下行数据包总和,上行总流量之和,下行总流量之和分析:以手机号码作为key值,上行流量,下行流量,上行总流量,下行总流量四个字段作为value值,然后以这个key,和value作为map阶段的输出,reduce阶段的输入1.1 自定义SumBeanpublic class SumBean implements Writa...原创 2019-08-20 20:21:40 · 701 阅读 · 0 评论 -
Hadoop_day06_MapReduce 的工作机制详解
1. MapTask 工作机制简单概述:inputFile通过split被逻辑切分为多个split文件,通过Record按行读取内容给map(用户自己实现的)进行处理,数据被map处理结束之后交给OutputCollector收集器,对其结果key进行分区(默认使用hash分区),然后写入buffer,每个map task都有一个内存缓冲区,存储着map的输出结果,当缓冲区快满的时候需要将缓冲...原创 2019-08-26 20:03:28 · 112 阅读 · 0 评论 -
Hadoop_day06_MapReduce 的 Reduce 和 Map 端实现 join 操作
一、Reduce 端1. 需求商品表id pname category_id price P0001 小米5 1000 2000 P0002 锤子T1 1000 3000 订单数据表id date pid amount 1001 20150710 P0001 2 1002...原创 2019-08-26 20:12:40 · 129 阅读 · 0 评论 -
Hadoop_day06_MapReduce 的 经典案例(求共同好友)
1. 需求分析以下是qq的好友列表数据,冒号前是一个用户,冒号后是该用户的所有好友(数据中的好友关系是单向的)A:B,C,D,F,E,OB:A,C,E,KC:A,B,D,E,I D:A,E,F,LE:B,C,D,M,LF:A,B,C,D,E,O,MG:A,C,D,E,FH:A,C,D,E,OI:A,OJ:B,OK:A,C,DL:D,E,FM:E,F,GO:A,...原创 2019-08-26 20:22:21 · 188 阅读 · 0 评论