[原创] 学习笔记：海量数据处理总结-CSDN博客

本文概述了处理大规模数据集的策略，包括分而治之、Hash分配、HashMap、N-BitMap、BloomFilter、堆结构、Trie树、MapReduce等技术，以及倒排索引和高位比较算法的应用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

　　本文简要总结了一下海量数据处理的常见方法和思路。总结的比较粗糙，主要作为知识提纲使用。请各位高手不吝赐教。

　　另外，最近在BAE上学习用 WordPress 搭建了独立博客，欢迎大家有空去转转！本博客文章将同步更新。

1、海量数据处理总体思路：分配任务、单独解决、合并结果

分配任务：
- 分而治之Hash
- 桶划分思想
单独解决：
- 统计各个元素出现的次数：Hash Map，N-Bit Map，Trie-Tree，倒排索引
- 找寻最大（小）的N个元素：堆结构，快排思想，局部淘汰法
- 查找给定元素是否存在在其中：Hash Map，1-Bit Map，Bloom Filter，高位比较
- 寻找中位数：桶划分思想
- 搜索引擎，查找关键字：倒排索引
合并结果：
- 1、归并排序思想合并
- 2、桶划分思想合并

2、分而治之+Hash

3、Hash Map

4、N-Bit Map 位图方法

5、Bloom Filter

有一定错误概率，但相比于单纯的bit_set节省空间。
bit_set + k个独立hash函数：将hash函数的结果作为索引值，将对应位置1。查找元素时，如果发现K个hash函数所得到的位置都是1，则认为对应元素存在。
输入元素个数n，确定位数组m的大小及hash函数个数
- m应该>=nlg(1/E)*lge
- k=(ln2)*(m/n)
Bloom Filter：元素映射为位数组
Counting Bloom Filter：在Bloom filter 中的位扩展为 counter，支持删除操作。
Spectral Bloom Filter：将元素与出现次数关联。

6、堆结构

通过堆的特性，找寻出现最多（少）的前N个元素。
需要先统计出各个元素出现的次数（可以用Hash Map），这一步只是找前N个。
找最多，用小顶堆，找最大，用大顶堆（先比较堆顶元素，如果不满足要求，则直接轮询下一个，如果符合要求，插入堆中）
时间复杂度O(X log Y)，X为所有元素的个数，Y为堆中元素的个数
扩展：双堆，一个大顶堆和一个小顶堆，可以用来维护中位数。大顶堆存储较小的一半数字，小顶堆存储较大的一半数字。每次插入元素后，适当移动根节点保持两个堆数字相等或相差1.

7、Trie 树