Hadoop之MapReduce
Hxm6440
这个作者很懒,什么都没留下…
展开
-
mapReduce中shuffle的四个步骤
文章目录partition (分区)sort (排序)combiner (局部聚合)group (分组) partition (分区) 分区的算法是 对key进行哈希,取到一个哈希值,用这个哈希值与reduceTask的数量进行取余。余几,这个数据就放在余数编号的partition sort (排序) 排序的方法有 正序,倒序,字典排序法 combiner (局部聚合) 对数据进行局部聚合。减少网...原创 2019-11-27 09:11:21 · 1610 阅读 · 0 评论 -
MapReduce计算任务的步骤
第一步 InputFormat Inputformat到hdfs上读取数据 将数据传给Split 第二步 Split Split将数据进行逻辑切分 将数据传给RR 第三步 RR(RecordReader) RR:将传入的数据转换成一行一行的数据,输入行首字母偏移量和对应数据 将数据传给Map 第四步 Map map根据业务需求实现自定义代码 将数据传给shuffle的partitio...原创 2019-11-14 14:41:32 · 166 阅读 · 0 评论 -
MapReduce编程初体验(idea):统计一个文档里的单词个数
文章目录准备数据创建maven项目,pom文件如下定义一个map类定义一个reduce类定义一个主类,用来描述job并提交job 准备数据 准备一个文档 wordcount.txt 内容如下 word count count hadoop hadoop hadoop spark spark spark hive storm flume kafka redis hbase storm flume ...原创 2019-11-13 09:32:52 · 749 阅读 · 0 评论 -
MapReduce简单介绍
什么是MapReduce mapReduce是一个计算框架,是指实现某项任务或某项工作从开始到结束的计算过程或流的结构 MapReduce计算框架 并行计算框架 一个大的任务拆分成多个小任务,将多个小任务分发到多个节点上。每个节点同时执行计算 分布式计算 分布式计算是一种计算方法,是将该应用分解成许多小的部分,分配给多台计算机进行处理 Hadoop为什么比传统技术方案快 分布式存储 分布式...原创 2019-11-13 08:24:17 · 530 阅读 · 0 评论 -
MapReduce编程初体验(idea+VMware):统计一个文档里的单词数量
将在idea里的java代码放在VMware里运行,具体操作步骤 java代码与在idea里的差不多,只有WordCountDriverLinux 做了一点改变 其他的代码参考 MapReduce编程初体验(idea):统计一个文档里的单词个数 编写 WordCountDriverLinux 类 package com.czxy.test01; import org.apache.hadoop....原创 2019-11-15 08:47:29 · 511 阅读 · 0 评论