数据仓库与HQL使用技巧

MapReduce简介

MapReduce是一种分布式计算模型,由Google提出,由它编写的应用程序能够运行在超大规模的分布式集群上,并行处理海量的数据集;Map负责数据的映射,Reduce负责将具有相同key值的数据进行统一处理

为什么需要MapReduce

  1. 单机器由于硬件资源限制,无法处理海量数据
  2. 单机版程序扩展到集群通过分布式运行,将极大程度增加程序的复杂度和开发难度
  3. 引入MapReduce后,RD可以集中精力于业务逻辑的开发上,将分布式计算中的复杂度交给框架来处理

MapReduce与MapReduce V2

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值