vaex 处理海量数据_海量数据处理问题汇总及方法总结

最新推荐文章于 2021-09-23 23:30:35 发布

weixin_39653717

最新推荐文章于 2021-09-23 23:30:35 发布

阅读量404

点赞数 1

文章标签： vaex 处理海量数据

本文链接：https://blog.csdn.net/weixin_39653717/article/details/111799171

版权

本文总结了处理海量数据的常见问题及其解决方案，包括使用vaex库和其他策略，如hash映射、堆排序、分布式计算等。讨论了如何在内存限制下找出文件中的共同URL、按query频率排序、统计最高频词、处理重复IP、找出数据集中最常见的项等问题，以及在大数据场景下如何利用trie树、hash_map、堆排序等工具进行高效处理。

摘要由CSDN通过智能技术生成

面试题中总是有好多海量数据的处理问题，在这里列出一些常见问题，便于以后查阅：

类型1：hash映射+hash统计+堆排序

1、给你A,B两个文件，各存放50亿条URL，每条URL占用64字节，内存限制是4G，让你找出A,B文件共同的URL。

可以估计每个文件安的大小为5G×64=320G，远远大于内存限制的4G。所以不可能将其完全加载到内存中处理。考虑采取分而治之的方法。

分而治之/hash映射：遍历文件a，对每个url求取

，然后根据所取得的值将url分别存储到1000个小文件(记为

)中。这样每个小文件的大约为300M。遍历文件b，采取和a相同的方式将url分别存储到1000小文件中(记为

)。这样处理后，所有可能相同的url都在对应的小文件(

)中，不对应的小文件不可能有相同的url。然后我们只要求出1000对小文件中相同的url即可。

hash统计：求每对小文件中相同的url时，可以把其中一个小文件的url存储到hash_set中。然后遍历另一个小文件的每个url，看其是否在刚才构建的hash_set中，如果是，那么就是共同的url，存到文件里面就可以了。

2、有10个文件，每个文件1G，每个文件的每一行都存放的是用户的query，每个文件的query都可能重复。要你按照query的频度排序

方案1：

hash映射：顺序读取10个文件，按照hash(query)%10的结果将query写入到另外10个文件(记为)中。这样新生成的文件每个的大小大约也1G(假设hash函数是随机的)。

hash统计：找一台内存在2G左右的机器，依次对用hash_map(query, query_count)来统计每个query出现的次数。注：hash_map(query,query_count)是用来统计每个query的出现次数，不是存储他们的值，出现一次，则count+1。

堆/快速/归并排序：利用快速/堆/归并排序按照出现次数进行排序。将排序好的query和对应的query_cout输出到文件中。这样得到了10个排好序的文件(记为)。对这10个文件进行归并排序(内排序与外排序相结合)。

除此之外，此题还有以下两个方法：

方案2：一般query的总量是有限的，只是重复的次数比较多而已，可能对于所有的query，一次性就可以加入到内存了。这样，我们就可以采用trie树/hash_map等直接来统计每个query出现的次数，然后按出现次数做快速/

最低0.47元/天解锁文章

weixin_39653717

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
vaex 处理海量数据_海量数据处理问题汇总及方法总结

面试题中总是有好多海量数据的处理问题，在这里列出一些常见问题，便于以后查阅：类型1：hash映射+hash统计+堆排序1、给你A,B两个文件，各存放50亿条URL，每条URL占用64字节，内存限制是4G，让你找出A,B文件共同的URL。可以估计每个文件安的大小为5G×64=320G，远远大于内存限制的4G。所以不可能将其完全加载到内存中处理。考虑采取分而治之的方法。分而治之/hash映射：遍历文...
复制链接

扫一扫