MapReduce是Google大数据处理的三驾马车之一,另外两个是GFS和Bigtable。它在倒排索引、PageRank计算、网页分析等搜索引擎相关的技术中都有大量的应用。
尽管开发一个MapReduce看起来很高深,实际上,万变不离其宗,它的本质就是我们今天要学的这种算法思想,分治思想。
1.如何理解分治算法?
为什么说MapReduce的本质就是分治算法呢?我们先来看看,什么是分治算法。
分治算法(divide and conquer)的核心思想就是分而治之,也就是将原问题划分成n个规模小,并且结构与原问题相似的子问题,递归地解决这些子问题,然后再合并其结果,就得到原问题的解。
分治是一种处理问题的思想,递归是一种编程技巧。实际上,分治算法一般都比较适合用递归来实现,其实现的每一层递归都会涉及这样的三个操作:
• 分解:将原问题分解成一系列子问题;
• 解决:递归地求解各个子问题,若子问题足够小,则直接求解;
• 合并:将子问题的结果合并成原问题
分治算法能解决的问题,一般需要满足下面这几个条件:
• 原问题分解成小问题具有相同的模式;
• 原问题分解成的子问题可以独立求解,子问题之间没有关联性,这一点是分治算法和动态规划的明显区别,等我们讲到动态规划的时候,会详细对比这两种算法;
• 具有分解的终止条件,也就是说,当问题足够小