算法高级（36）-如何利用并行提高算法的执行效率？

本文链接：https://blog.csdn.net/m0_37609579/article/details/101175786

前面我们学习了那么多的算法，大家也知道，算法的目的是为了解决实际问题的。但我们也看到，对于同一个问题，我们可以用不同的算法来解决。而因为时间和空间复杂度的问题，不同的算法执行的效率差距还是比较大的。我们学习算法，当然是希望能找到一种最高效的算法。

那么，我们思考一个问题，如果一个问题已经用一个很精妙的算法解决了，但还想进一步、大幅度提高效率，这有可能吗？

我们可以考虑更优秀的算法来实现，但如果在算法不变的情况下，是不是就没有办法了呢？其实还是有办法的。这里我们可以使用我们前面学过的分治算法思想，把一个大的问题拆分成很多相似的小问题，每个小问题，交给不同的线程甚至不同的物理机去执行，执行完毕再做一次归并处理，这样就能极大地利用硬件的资源，几倍十几倍地提高执行效率。分治算法在工程上也也可以称为“并行算法”。下面以一些具体的案例来对并行算法进行介绍。

一、并行处理海量日志

问题：海量日志数据，如何提取出某日访问百度次数最多的那个IP？

分析：百度作为国内第一大搜索引擎，每天访问它的IP数量巨大，如果想一次性把所有IP数据装进内存处理，则内存容量明显不够，故针对数据太大，内存受限的情况，可以把大文件转化成（取模映射）小文件，从而大而化小，逐个处理。

换言之，先映射，而后统计，最后排序。

解法：具体分为以下3个步骤

分而治之/hash映射
- 首先把这一天访问百度日志的所有IP提取出来，然后逐个写入到一个大文件中，接着采用哈希取模的方式，比如%1000，把整个大文件映射为1000个小文件。
hash_map统计
- 当大文件转化成了小文件，那么我们便可以采用hash_map(ip, value)来分别对1000个小文件中的IP进行频率统计，再找出每个小文件中出现频率最大的IP。
堆/快速排序
- 统计出1000个频率最大的IP后，依据各自频率的大小进行排序(可采取堆排序)，找出那个频率最大的IP，即为所求。

二、并行处理大文件

问题：有一个1G大小的一个文件，里面每一行是一个词，词的大小不超过16字节，内存限制大小是1M。返回词频最高的100个词。

解法：

分而治之/hash映射
- 顺序读取文件，对于每个词x，取hash(x)%5000，然后把该值存到5000个小文件（记为x0,x1,...x4999）中。这样每个文件大概是200k左右。当然，如果其中有的小文件超过了1M大小，还可以按照类似的方法继续往下分，直到分解得到的小文件的大小都不超过1M。
hash_map统计
- 对每个小文件，采用trie树/hash_map等统计每个文件中出现的词以及相应的频率。
堆/归并排序
- 取出出现频率最大的100个词（可以用含100个结点的最小堆）后，再把100个词及相应的频率存入文件，这样又得到了5000个文件。最后就是把这5000个文件进行归并（类似于归并排序）的过程了。

三、并行计算TopN

问题；海量数据分布在100台服务器中，请高效统计出这批数据的TOP10。

堆排序
- 在每台电脑上求出TOP 10，可以采用包含10个元素的堆完成（TOP 10小，用最大堆，TOP 10大，用最小堆，比如求TOP10大，我们首先取前10个元素调整成最小堆，如果发现，然后扫描后面的数据，并与堆顶元素比较，如果比堆顶元素大，那么用该元素替换堆顶，然后再调整为最小堆。最后堆中的元素就是TOP 10大）。
组合归并
- 求出每台电脑上的TOP 10后，然后把这100台电脑上的TOP 10组合起来，共1000个数据，再利用上面类似的方法求出TOP 10就可以了。