Hadoop之MapReduce
Hxm6440
这个作者很懒,什么都没留下…
展开
-
mapReduce中shuffle的四个步骤
文章目录partition (分区)sort (排序)combiner (局部聚合)group (分组)partition (分区)分区的算法是对key进行哈希,取到一个哈希值,用这个哈希值与reduceTask的数量进行取余。余几,这个数据就放在余数编号的partitionsort (排序)排序的方法有正序,倒序,字典排序法combiner (局部聚合)对数据进行局部聚合。减少网...原创 2019-11-27 09:11:21 · 1621 阅读 · 0 评论 -
MapReduce计算任务的步骤
第一步 InputFormatInputformat到hdfs上读取数据将数据传给Split第二步 SplitSplit将数据进行逻辑切分将数据传给RR第三步 RR(RecordReader)RR:将传入的数据转换成一行一行的数据,输入行首字母偏移量和对应数据将数据传给Map第四步 Mapmap根据业务需求实现自定义代码将数据传给shuffle的partitio...原创 2019-11-14 14:41:32 · 178 阅读 · 0 评论 -
MapReduce编程初体验(idea):统计一个文档里的单词个数
文章目录准备数据创建maven项目,pom文件如下定义一个map类定义一个reduce类定义一个主类,用来描述job并提交job准备数据准备一个文档 wordcount.txt 内容如下word count counthadoop hadoop hadoopspark spark sparkhivestorm flumekafkaredishbasestorm flume...原创 2019-11-13 09:32:52 · 763 阅读 · 0 评论 -
MapReduce简单介绍
什么是MapReducemapReduce是一个计算框架,是指实现某项任务或某项工作从开始到结束的计算过程或流的结构MapReduce计算框架并行计算框架一个大的任务拆分成多个小任务,将多个小任务分发到多个节点上。每个节点同时执行计算分布式计算分布式计算是一种计算方法,是将该应用分解成许多小的部分,分配给多台计算机进行处理Hadoop为什么比传统技术方案快分布式存储分布式...原创 2019-11-13 08:24:17 · 538 阅读 · 0 评论 -
MapReduce编程初体验(idea+VMware):统计一个文档里的单词数量
将在idea里的java代码放在VMware里运行,具体操作步骤java代码与在idea里的差不多,只有WordCountDriverLinux 做了一点改变其他的代码参考 MapReduce编程初体验(idea):统计一个文档里的单词个数编写 WordCountDriverLinux 类package com.czxy.test01;import org.apache.hadoop....原创 2019-11-15 08:47:29 · 524 阅读 · 0 评论