大数据Top K问题

最新推荐文章于 2024-07-27 19:37:48 发布

brycegao321

最新推荐文章于 2024-07-27 19:37:48 发布

阅读量7k

点赞数 4

分类专栏：数据结构和算法文章标签：堆排序二分查找分治

本文链接：https://blog.csdn.net/brycegao321/article/details/79629155

版权

本文探讨了在大数据背景下解决Top K问题的两种场景：1）在1亿个数字中找出最大或最小的前100个数字，通过使用最大堆或最小堆以及二分查找法；2）找出1亿个搜索关键词中出现次数最多的前100个，利用分治、归并和哈希。这两种方法都考虑了内存空间限制，并提供了相应的算法思路和时间复杂度分析。

摘要由CSDN通过智能技术生成

大数据下的2个Top K场景：

1、 1亿个数字中找出最大或最小的前100个数字（考虑判重和内存空间限制）？

思路：考虑将数字分散存储在不同文件中，然后依次读取各个文件，例如1~10000存到1.txt、 2~20000存到2.tx、以此类推；

如果不判重，可以将前100个数字做成最大堆或最小堆的数据结构（找最大的Top100用最小堆，找最小的Top100用最大堆），然后依次遍历所有数字，符合条件时替换根节点后并重新构建堆。堆的缺点是允许有重复数字！！！

如果要判重，则创建一个100个空间的空数组，遍历1亿个数字依次插入值（按照升序），使用二分查找算法判断新值在数组中的位置并插入，该数组最多容纳100个值。当有101个值时先判重，如果重复继续向后遍历，如果值大于数组最小值则插入到指定位置，数组第一个元素移出数组，因为数组是连续的，所有可以用内存拷贝方式赋值，只有新插入的值要单独赋值到对应的下标(原理类似于android.util.SparseArray)。因内存拷贝可认为不占用时间，该思路的总会时间复杂度是O(1亿*log100）， log100是二分查找的复杂度。

2、 1亿个搜索关键词找出次数最多的前100个搜索词（考虑内存空间限制）？

思路：核心是“分治”、“归并”和哈希，第一次遍历将关键词散列到不同的文件中（散列算法是性能关键，哈希函数的性能直接影响散列的结果，尽量避免“数据倾斜”），同一个关键词一定会散列到同一个文件，理想情况是所有关键词均匀散列到不同的文件中（即分治思想，将大文件分解为小问题）。

读取每个文件并记录各关键词的次数，做个冒泡排序，从每个文件中排序出前100的关键词；

取第一个文件的记录结果，和第二个文件做“合并”，即200个结果中排序出前100个关键词，然后依次合并第三个、第四个。。。。第N个文件(将子结果合并为总结果)。