Hadoop生态圈之MapReduce批计算框架简述
数据以一条记录为单位经过Map方法映射成KV,相同的key为一组,这一组数据调用一次Reduce方法,在方法内迭代计算这组数据。根据已收到的TaskTracker汇报的资源数据,确定最终每一个split对应的map应该去哪个节点。yarn架构:将1.x中JobTracker的资源管理功能独立出来,进行独立的资源管理。通过cgroup(内核级)技术,在启动jvm进程的时候,由kernel约束死。Map的并行度由切片的数量来决定,Reduce的并行度由人决定。jvm进程->操作系统进程。
原创
2023-05-30 10:21:57 ·
108 阅读 ·
0 评论