大数据比较问题

最新推荐文章于 2023-01-06 14:50:04 发布

csdn_9527666

最新推荐文章于 2023-01-06 14:50:04 发布

阅读量283

点赞数

分类专栏：海量数据处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/csdn_9527666/article/details/108949933

版权

海量数据处理专栏收录该内容

1 篇文章 0 订阅

订阅专栏

问题1

两个分别有60亿字节(Byte)的文件存储了空格隔开的IP地址，现提供4核CPU 以及 12G 内存机器，目标是找出两个文件共有的IP地址并存储到文件C中。

解答

1 容量规划：

60亿字节 = (60 * 10 ^ 8) / 1024 / 1024 = 5.5GB

2 暴力法:

读取其中A文件到内存中(Set去重存储)，循环分片读取B文件，如在A 中存在则将其加入到C文件中，并从缓存中删除避免重复加入C中。

多线程加速:(如果对响应速度要求很高的情况下才使用，否则只会引入不必要的技术复杂度)

对B 文件按照线程数目进行分片，写A缓存和C文件时会存在多线程安全问题，考虑 1 对C 文件进行二次去重操作考虑2 C 文件按照线程分片成多个小文件，最终去重并合并成一个C文件

科普布隆过滤器

海量数据优先想到布隆过滤器。但是布隆过滤器能解决 1 哪些key是肯定不存在的 2 判定存在时具有一定概率性(如hash冲突，极其优秀的hash函数也无法保证无hash冲突问题出现hash冲突后布隆过滤器判断这个key可能存在具体是否存在需要二次校验)。综上所述，布隆过滤器适用于处理Redis缓存穿透问题，如被恶意拿一个不存在的id调接口查数据导致把MySQL查崩掉。可以用布隆过滤器处理上述问题。但在本文题中并不适用。

问题2

问题1中每个文件增长10倍怎么处理？

解答1

1 容量规划：

600亿字节 = (600 * 10 ^ 8) / 1024 / 1024 = 55GB

内存还是12GB 此时采用问题1中解法由于内存限制无法解决此问题。

2 分治算法

step1：遍历文件a，对每个key求取hash(key)%10，然后根据所取得的值将url分别存储到10个小文件(记为a0,a1,...,a9，每个小文件约5.5GB)，为什么是10？主要根据内存大小和要分治的文件大小来计算，我们就大致可以把55G大小分为10份，每份大约5.5GB（当然，到底能不能分布尽量均匀，得看hash函数的设计）

step2：遍历文件b，采取和a相同的方式将key分别存储到10个小文件(记为b0,b1,...,b9)（为什么要这样做? 文件a的hash映射和文件b的hash映射函数要保持一致，这样的话相同的url就会保存在对应的小文件中，比如，如果a中有一个key记录data1被hash到了a9文件中，那么如果b中也有相同url，则一定被hash到了b9中）

所以现在问题转换成了：找出10对小文件中每一对相同的key（不对应的小文件不可能有相同的key）

step3：因为每个小文件大约5.5GB，所以我们再可以采用解法1中的解法处理后续问题。

解答2

在解法1 的基础上

如果ip满足规律性如192.168.xxx.xxx 那么可以在缓存时使用字典树数据结构可以节省掉n * 8个字符空间

但是每次查询是否存在的时间复杂度会由 Set的O(1) 增长到字段树的 O(logN)

空间和时间的权衡依据业务场景以及硬件条件进行权衡

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

csdn_9527666 CSDN认证博客专家 CSDN认证企业博客

码龄7年

96: 原创

6万+: 周排名

122万+: 总排名

10万+: 访问

: 等级

1670: 积分

9: 粉丝

52: 获赞

7: 评论

143: 收藏

私信

关注

热门文章

分类专栏

最新评论

kafka顺序写实现原理参考来源：学不死的程序员
weixin_41014979: 虽然不知道是不是这样，但是这样解释说得通
sc.next() 和 sc.nextLine 的区别
「已注销」: 真是个坑,谢谢指路
kafka顺序写实现原理参考来源：学不死的程序员
诺浅: 我理解的顺序写应该是并不是指在末尾追加内容这么简单，如果是这样的话对任何一个文件的单线程写都可以认为是顺序写了。顺序应该不是体现在文件上，而是体现在磁盘上的连续的扇区，而要做到扇区是连续的，就必须预先申请好一块连续的磁盘空间。这也是为什么kafka的segment file即使没有数据的情况下，其大小也是恒定的。不知道理解的对不对。
sc.next() 和 sc.nextLine 的区别
UnshodMist17968: 明白了
sc.next() 和 sc.nextLine 的区别
大橘为重大橘为重: 666

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。