MapReduce
文章平均质量分 80
倒霉的打杂工程师
这个作者很懒,什么都没留下…
展开
-
MapReduce中的切片问题
MapReduce中的切片问题先看一张图,MapReduce的数据流输入的数据在分配给MapTask之前会被切片,数据切片是在逻辑上对数据进行分片。物理上并没有发生变化。有多少切片就有多少MapTask。hadoop的HDFS把数据在物理上分块(block)存储,那么分块和切片之间是什么关系呢?数据块:Block是HDFS物理上把数据分成一块一块。数据切片:数据切片只是在逻辑上对输入进行分片,并不会在磁盘上将其切分成片进行存储。1、TextInputFormat切片机制系统默认的切片机制,切原创 2021-04-18 16:00:12 · 484 阅读 · 0 评论 -
Mapreduce初识
Mapreduce详解定义:MapReduce是一个分布式的计算框架。其核心功能是将用户编写的业务逻辑代码与其自带默认组件组合成一个完整的分布式计算程序。通过定义,完全不知道它是干嘛的。我们说人话,MapReduce的过程简单点可以说成将数据按照一定的规则分片(英文叫split),然后把这些数据切片分发给不同的map,map这些打工人就按照既定的逻辑对数据进行处理,处理完之后就输出,然后这些数据经过一系列类似于上车下车转乘的操作,这些数据被reduce拿到了。reduce把这些数据按照一定的规则进行汇总原创 2021-04-18 09:19:44 · 123 阅读 · 0 评论