Hadoop 中的大数据技术:MapReduce(1)
第1章 MapReduce 概述
1.1 MapReduce 定义
MapReduce 是一个用于分布式计算的编程框架,它是 Hadoop 核心组件之一,主要用于开发分布式数据分析应用。
MapReduce 的主要功能是将用户编写的业务逻辑代码与默认组件相结合,形成一个完整的分布式计算程序,并能够在 Hadoop 集群上并发执行。
1.2 MapReduce 优缺点
1.2.1 优点
- 易于编程:用户只需要实现几个简单的接口就能完成分布式程序的开发,这使得 MapReduce 成为了非常流行的编程模型。
- 良好的扩展性:可以通过简单地增加硬件资源来提升计算能力。
- 高容错性:设计时考虑到了运行在廉价硬件上的情况,因此具备自动故障恢复的能力。
- 适合大规模数据处理:支持PB级别的数据量处理,可利用上千台服务器集群进行并行计算。