海量数据处理方法总结

最新推荐文章于 2021-09-13 16:56:16 发布

山上有只羊M

最新推荐文章于 2021-09-13 16:56:16 发布

阅读量275

点赞数

分类专栏：数据结构和算法

本文链接：https://blog.csdn.net/shanshangyouzhiyangM/article/details/79773180

版权

数据结构和算法专栏收录该内容

12 篇文章 0 订阅

订阅专栏

海量数据处理的主要问题：数据量太大，不能完全加载到内存中处理。

三种方法

分治 hash映射

首先hash映射到不同的小文件。然后在每个小文件中查找想要的数值。

Bit_map 位图排序

可以极大的缩小空间。每个数用一个bit来表示。比如40亿个整数（4GB（2^32）*64bit）用512M（2^32=512*2^20*8bit）就可以表示了。

Bloom Filter

Bloom Filter的位数m通常要比集合中的最大元素小得多，可见，Bloom Filter空间效率和时间效率都很高。
但不适合“零错误”应用场合，有较低的错误率。

快速查找的两种方法：
1. 分治，hash映射。首先hash映射到不同的小文件。然后在每个小文件中查找想要的数值。
2. Bit_map，可以极大的缩小空间。每个数用一个bit来表示。比如40亿个整数（4GB（2^32）*64bit）用512M（2^32=512*2^20*8bit）就可以表示了。

快速排序的两种方法：
1. 分治，hash映射。首先hash映射到不同的小文件。然后对小文件中的数据进行排序，再利用归并排序进行外排序。
2. 快速排序。按照数字的最高位（第32位），如果是0，就写入文件file_0，如果是1，就写入文件file_1（类似于快速排序中的枢轴元素）。比较每个文件中数字的次高位（第31位），然后……依次迭代循环。

注:2^32=4,294,967,296(42亿零九千多万)

Top K问题

1、海量日志数据，提取出某日访问百度次数最多的那个IP。

Top 1算法
分治法

将所有IP逐个写入到一个大文件中。注意到IP是32位的，最多有个2^32个IP（4GB）。
可以采用映射的方法，比如模1000（1024），把整个大文件映射为1000（1024）个小文件（4MB）。
再找出每个小文中出现频率最大的IP（可以构建一个IP为key，出现次数为value的Hash map），然后记录value最大的key（IP）和value（相应的频率）。
然后再在这1000（1024）个最大的IP中，按value进行排序，找出那个频率最大的IP，即为所求。

2、假设目前有一千万个查询串（长度为1-255字节），这些查询串的重复度比较高，除去重复后，不超过3百万个。请你统计最热门（重复度最高）的10个查询串，要求使用的内存不能超过1G。

Top K算法

（方法一）
详情请参见：十一、从头到尾彻底解析Hash表算法。https://www.cnblogs.com/baimt/p/5299807.html
文中，给出的最终算法是：

第一步、先对这批海量数据预处理，在O（N）的时间内用Hash_map完成统计（key为查询串，value为查询的次数）；
第二步、借助堆这个数据结构，找出Top K，时间复杂度为O（N‘logK）。维护一个K大小的最小堆。

我们最终的时间复杂度是：O（N） + O（N’*logK），（N为1000万，N’为300万）。

（方法二）
或者：采用trie树，关键字域存该查询串出现的次数，没有出现为0。最后用10个元素的最小推来对出现频率进行排序。
trie树(字典树)，又称单词查找树，Trie树，是一种树形结构，是一种哈希树的变种。典型应用是用于统计，排序和保存大量的字符串（但不仅限于字符串），所以经常被搜索引擎系统用于文本词频统计。它的优点是：利用字符串的公共前缀来减少查询时间，最大限度地减少无谓的字符串比较，查询效率比哈希树高。

3、有一个1G大小的一个文件，里面每一行是一个词，词的大小不超过16字节，内存限制大小是1M。返回频数最高的100个词。

Top K算法

方案：顺序读文件中，对于每个词x，取hash(x)=x mod 5000，然后按照该值存到5000个小文件（记为x0,x1,…x4999）中。这样每个文件大概是200k左右。

如果其中的有的文件超过了1M大小，还可以按照类似的方法继续往下分，直到分解得到的小文件的大小都不超过1M。
对每个小文件，统计每个文件中出现的词以及相应的频率（可以采用trie树/hash_map等），并取出出现频率最大的100个词（可以用含100个结点的最小堆），并把100个词及相应的频率存入文件，这样又得到了5000个文件。下一步就是把这5000个文件进行归并（类似与归并排序）的过程了。

4、有10个文件，每个文件1G，每个文件的每一行存放的都是用户的query，每个文件的query都可能重复。要求你按照query的频度排序。

还是典型的TOP K算法，解决方案如下：
方案1：
顺序读取10个文件，按照hash(query)的结果将query写入到另外10个文件（记为）中。这样新生成的文件每个的大小大约也1G（假设hash函数是随机的）。

找一台内存在2G左右的机器，依次对用hash_map(query, query_count)来统计每个query出现的次数。利用快速/堆/归并排序按照出现次数进行排序。将排序好的query和对应的query_cout输出到文件中。这样得到了10个排好序的文件（记为）。

对这10个文件进行归并排序（内排序与外排序相结合）。

方案2：
一般query的总量是有限的，只是重复的次数比较多而已，可能对于所有的query，一次性就可以加入到内存了。这样，我们就可以采用trie树/hash_map等直接来统计每个query出现的次数，然后按出现次数做快速/堆/归并排序就可以了。

方案3：
与方案1类似，但在做完hash，分成多个文件后，可以交给多个文件来处理，采用分布式的架构来处理（比如MapReduce），最后再进行合并。

5、给定a、b两个文件，各存放50亿个url，每个url各占64字节，内存限制是4G，让你找出a、b文件共同的url？

方案1：可以估计每个文件安的大小为5G×64=320G，远远大于内存限制的4G。所以不可能将其完全加载到内存中处理。考虑采取分而治之的方法。

遍历文件a，对每个url求取hash(url)00，然后根据所取得的值将url分别存储到1000个小文件（记为a0,a1,…,a999）中。这样每个小文件的大约为300M。

遍历文件b，采取和a相同的方式将url分别存储到1000小文件（记为b0,b1,…,b999）。这样处理后，所有可能相同的url都在对应的小文件（a0vsb0,a1vsb1,…,a999vsb999）中，不对应的小文件不可能有相同的url。然后我们只要求出1000对小文件中相同的url即可。

求每对小文件中相同的url时，可以把其中一个小文件的url存储到hash_set中。然后遍历另一个小文件的每个url，看其是否在刚才构建的hash_set中，如果是，那么就是共同的url，存到文件里面就可以了。

方案2：如果允许有一定的错误率，可以使用Bloom filter，4G内存大概可以表示340亿bit。将其中一个文件中的url使用Bloom filter映射为这340亿bit，然后挨个读取另外一个文件的url，检查是否与Bloom filter，如果是，那么该url应该是共同的url（注意会有一定的错误率）。

Bloom filter日后会在本BLOG内详细阐述。

6、在2.5亿个整数中找出不重复的整数，注，内存不足以容纳这2.5亿个整数。

方案1：采用2-Bitmap（每个数分配2bit，00表示不存在，01表示出现一次，10表示多次，11无意义）进行，共需内存2^32 * 2 bit=1 GB内存，还可以接受。然后扫描这2.5亿个整数，查看Bitmap中相对应位，如果是00变01，01变10，10保持不变。所描完事后，查看bitmap，把对应位是01的整数输出即可。

方案2：也可采用与第1题类似的方法，进行划分小文件的方法。然后在小文件中找出不重复的整数，并排序。然后再进行归并，注意去除重复的元素。

7、腾讯面试题：给40亿个不重复的unsigned int的整数，没排过序的，然后再给一个数，如何快速判断这个数是否在那40亿个数当中？

与上第6题类似，我的第一反应时快速排序+二分查找。以下是其它更好的方法：
方案1：oo，申请512M的内存，一个bit位代表一个unsigned int值。读入40亿个数，设置相应的bit位，读入要查询的数，查看相应bit位是否为1，为1表示存在，为0表示不存在。

dizengrong：
方案2：这个问题在《编程珠玑》里有很好的描述，大家可以参考下面的思路，探讨一下：
又因为2^32为40亿多，所以给定一个数可能在，也可能不在其中；
这里我们把40亿个数中的每一个用32位的二进制来表示
假设这40亿个数开始放在一个文件中。

然后将这40亿个数分成两类:
1.最高位为0
2.最高位为1
并将这两类分别写入到两个文件中，其中一个文件中数的个数<=20亿，而另一个>=20亿（这相当于折半了）；
与要查找的数的最高位比较并接着进入相应的文件再查找

再然后把这个文件为又分成两类:
1.次最高位为0
2.次最高位为1

并将这两类分别写入到两个文件中，其中一个文件中数的个数<=10亿，而另一个>=10亿（这相当于折半了）；
与要查找的数的次最高位比较并接着进入相应的文件再查找。
…….
以此类推，就可以找到了,而且时间复杂度为O(logn)，方案2完。

附：这里，再简单介绍下，位图方法：
使用位图法判断整形数组是否存在重复
判断集合中存在重复是常见编程任务之一，当集合中数据量比较大时我们通常希望少进行几次扫描，这时双重循环法就不可取了。

位图法比较适合于这种情况，它的做法是按照集合中最大元素max创建一个长度为max+1的新数组，然后再次扫描原数组，遇到几就给新数组的第几位置上1，如遇到5就给新数组的第六个元素置1，这样下次再遇到5想置位时发现新数组的第六个元素已经是1了，这说明这次的数据肯定和以前的数据存在着重复。这种给新数组初始化时置零其后置一的做法类似于位图的处理方法故称位图法。它的运算次数最坏的情况为2N。如果已知数组的最大值即能事先给新数组定长的话效率还能提高一倍。

山上有只羊M

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
海量数据处理方法总结

海量数据处理的主要问题：数据量太大，不能完全加载到内存中处理。三种方法分治 hash映射首先hash映射到不同的小文件。然后在每个小文件中查找想要的数值。Bit_map 位图排序可以极大的缩小空间。每个数用一个bit来表示。比如40亿个整数（4GB（2^32）*64bit）用512M（2^32=512*2^20*8bit）就可以表示了。Bloom Filter...
复制链接

扫一扫