如何快速对50亿条话单进行去重（布隆过滤器测试报告）

最新推荐文章于 2024-06-12 00:06:37 发布

qq838642798

最新推荐文章于 2024-06-12 00:06:37 发布

阅读量3.5k

点赞数 1

分类专栏：大数据文章标签：海量数据 hashcode bitset java 算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq838642798/article/details/53688444

版权

对于实时话单而言，巨大的数据量和无规则的重发单导致如何对海量数据进行过滤成为一个难题，对于某大地市而言，一个月的话单量能达到50亿到60亿条话单。如果每条话单都去持久化数据库中查找，效率非常低下，如果存放在内存中，目前还没有生产主机的内存能容纳这么巨量的话单，即使存放的是比较短的话单id(保守估计每个id是80个字符组成的字符串，加上String类型的冗余属性可能达到100个字符），需要的总内存为8*100*50亿/8/1024/1024/1024=465G。

使用布隆过滤器把每条话单映射成BitSet的一个位，对于绝大部分非重复话单可以快速通过布隆过滤器判断出，对于极少的冲突部分和重复部分进行下一步进持久化数据的查询，影响较小。如何设计布隆过滤器和选择哈希算法成了解决问题的重点。下面是一些测试结果。

哈希算法：采用乘法哈希，对哈希结果值取绝对值，设置该值对应的bit位

哈希算法1：java自带的hashcode函数

哈希算法2：bernstein2

public static int bernstein2(String key)

{

int hash = 0;

int i;

for (i=0; i<key.length(); ++i)

hash = 33*hash + key.charAt(i);

return hash;

}

哈希算法3：bernstein3

public static int bernstein3(String key)

最低0.47元/天解锁文章

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
1
评论
如何快速对50亿条话单进行去重（布隆过滤器测试报告）

对于实时话单而言，巨大的数据量和无规则的重发单导致如何对海量数据进行过滤成为一个难题，对于某大地市而言，一个月的话单量能达到50亿到60亿条话单。如果每条话单都去持久化数据库中查找，效率非常低下，如果存放在内存中，目前还没有生产主机的内存能容纳这么巨量的话单，即使存放的是比较短的话单id(保守估计每个id是80个字符组成的字符串，加上String类型的冗余属性可能达到100个字符），需要的总内存为
复制链接

扫一扫

专栏目录

qq838642798 CSDN认证博客专家 CSDN认证企业博客

码龄15年

80: 原创

18万+: 周排名

119万+: 总排名

18万+: 访问

: 等级

2217: 积分

38: 粉丝

107: 获赞

30: 评论

256: 收藏

私信

关注

热门文章

分类专栏

java 55篇
大数据 26篇

最新评论

Java锁性能提高（锁升级）机制总结
RisingLiang: 讲得真好，简单直接，没有那么多另类词汇。
Java锁性能提高（锁升级）机制总结
去往何方: synchronized 锁升级原理：在锁对象的对象头里面有一个 threadid 字段，在第一次访问的时候 threadid 为空，jvm 让其持有偏向锁，并将 threadid 设置为其线程 id，再次进入的时候会先判断 threadid 是否与其线程 id 一致，如果一致则可以直接使用此对象，如果不一致，则升级偏向锁为轻量级锁，通过自旋循环一定次数来获取锁，执行一定次数之后，如果还没有正常获取到要使用的对象，此时就会把锁从轻量级升级为重量级锁，此过程就构成了 synchronized 锁的升级。锁的升级的目的：锁升级是为了减低了锁带来的性能消耗。在 Java 6 之后优化 synchronized 的实现方式，使用了偏向锁升级为轻量级锁再升级到重量级锁的方式，从而减低了锁带来的性能消耗。
ReenTrantLock可重入锁（和synchronized的区别）总结
小鱼人爱编程: 哈哈，这里比较间接。。 [code=html] https://www.jianshu.com/p/dcabdf695557 [/code]
Java锁性能提高（锁升级）机制总结
Danny_idea: 楼主最后一段的评论讲得蛮在理的
ReenTrantLock可重入锁（和synchronized的区别）总结
weixin_张伟: 很不错的文章

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。