大数据(四) - MapReduce

本文深入探讨了MapReduce在大数据处理中的应用,详细解析了MapReduce的编程模型,包括Map阶段(InputFormat、Mapper、Combiner、Partitioner)和Reduce阶段(Reducer、OutputFormat)。此外,还介绍了MapReduce的内部逻辑、2.0架构以及数据本地性和推测执行机制,展示了其在数据统计、搜索引擎索引构建和各种算法实现等场景中的广泛应用。
摘要由CSDN通过智能技术生成
MapReduce适合PB级以上海量数据的离线处理
MapReduce不擅长什么
        实时计算
                像MySQL一样,在毫秒级或者秒级内返回结果
        流式计算
                MapReduce的输入数据集是静态的,不能动态变化
                MapReduce自身的设计特点决定了数据源必须是静态的
        DAG计算
                多个应用程序存在依赖关系,后一个应用程序的输入为前一个的输出

MapReduce编程模型
        MapReduce将作业job的整个运行过程分为两个阶段:Map阶段和Reduce阶段
        Map阶段由一定数量的 Map Task组成
                输入数据格式解析: InputFormat
                输入数据处理: Mapper
                数据分组: Partitioner
        Reduce阶段由一定数量的 Reduce Task组成
                数据远程拷贝
                数据按照key排序 </
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值