大数据关键技术——MapReduce

最新推荐文章于 2023-08-25 10:15:36 发布

ItStar_

最新推荐文章于 2023-08-25 10:15:36 发布

阅读量1.7k

点赞数

传统的数据采集来源单一，且存储、管理和分析数据量也相对较小，大多采用关系型数据库和并行数据仓库即可处理，并且数据处理方法是以处理器为中心，处理的大多是结构化数据。

640?wx_fmt=jpeg

随着互联网的发展，数据来源日渐丰富且数据类型多样，除了结构化数据，非结构化的数据大量浮现。随即面临的问题便是存储和分析挖掘的数据量变大，对数据展现的要求要高，并且很看重数据处理的高效性和可用性。

640?wx_fmt=jpeg

大环境的驱使下，大数据的基本处理流程应用而生，与传统数据处理流程相比，主要区别在于：由于大数据要处理大量、非结构化的数据，所以在各个处理环节中都可以采用MapReduce等方式进行并行处理。

640?wx_fmt=jpeg

大数据的并行处理利器——MapReduce

大数据可以通过MapReduce这一并行处理技术来提高数据的处理速度。MapReduce的设计初衷是通过大量廉价服务器实现大数据并行处理，对数据一致性要求不高，其突出优势是具有扩展性和可用性，特别适用于海量的结构化、半结构化及非结构化数据的混合处理。

MapReduce将传统的查询、分解及数据分析进行分布式处理，将处理任务分配到不同的处理节点，因此具有更强的并行处理能力。作为一个简化的并行处理的编程模型，MapReduce还降低了开发并行应用的门槛。

640?wx_fmt=jpeg

MapReduce是一套软件框架，包括Map（映射）和Reduce（化简）两个阶段，可以进行海量数据分割、任务分解与结果汇总，从而完成海量数据的并行处理。

MapReduce的工作原理其实是先分后合的数据处理方式。Map即“分解”，把海量数据分割成了若干部分，分给多台处理器并行处理；Reduce即“合并”，把各台处理器处理后的结果进行汇总操作以得到最终结果。如右图所示，如果采用MapReduce来统计不同几何形状的数量，它会先把任务分配到两个节点，由两个节点分别并行统计，然后再把它们的结果汇总，得到最终的计算结果。

640?wx_fmt=jpeg