hadoop
文章平均质量分 95
LJiaWang
这个作者很懒,什么都没留下…
展开
-
【Hadoop学习之都】基础篇一
hadoop原创 2024-07-30 09:36:15 · 345 阅读 · 0 评论 -
【HadoopShuffle原理剖析】基础篇二
当启动溢写操作时,首先需要把缓存中的数据进行分区,然后对每个分区的数据进行排序和合并(combine),之后再写入磁盘文件。在Map任务全部结束前,这些溢写文件会被归并成一个大的磁盘文件,然后通知相应的Reduce任务来领取属于自己处理的数据。数据倾斜指大量的key相同的数据交由一个reduce任务统计计算,造成”闲的闲死,忙的忙死“这样的现象。Map任务输出的key相同,一定是相同分区,并且肯定是相同的Reduce处理的,保证计算结果的准确性。保证每一个Reduce任务处理的数据大致是一致的。原创 2024-07-30 09:56:59 · 645 阅读 · 0 评论