![](https://img-blog.csdnimg.cn/20201014180756926.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
MapReduce
文章平均质量分 73
做一只精致IT小白
这个作者很懒,什么都没留下…
展开
-
【MapReduce】03.MapReduce框架原理
数据切片:数据切片是MapReduce程序计算输入数据的单位,一个切片会对应一个MapTask(逻辑切分,并非物理切分)MapTask的并行度决定Map阶段的任务处理并发度,进而影响到整个Job的处理速度。数据块:Block是HDFS物理上的数据分割,数据块是HDFS存储数据单位。1)一个Job的Map阶段并行度由客户端在提交Job时的切片数决定。2)每一个Split切片分配一个MapTask并行实例处理。4)切片时不考虑数据集整体,而是逐个针对每个文件单独切片。原创 2024-03-07 13:50:08 · 465 阅读 · 0 评论 -
【MapReduce】01.概述
MapReduce是一个分布式运算程序的编程框架,用于Hadoop数据分析的核心框架。MapReduce的核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个Hadoop集群上。原创 2024-01-19 15:30:33 · 341 阅读 · 0 评论 -
【MapReduce】02.Hadoop序列化
7)如果需要将自定义的bean放在key中传输,则还需要实现Comparable接口,因为MapReduce框中的shuffle过程要求对key必须能排序。6)要想把结果显示在文件中,需要重写toString()方法,可用\t分开,方便后续使用。2)反序列化时,需要反射调用空参构造函数,所以必须有空参构造。自定义bean对象实现序列化接口。5)注意反序列化顺序和序列化顺序要完全一致。1)必须实现Writable接口。4)重写反序列化方法。原创 2024-03-05 16:49:36 · 620 阅读 · 0 评论