快速URL排重的方法(一)

最新推荐文章于 2022-06-14 17:49:42 发布

iteye_3952

最新推荐文章于 2022-06-14 17:49:42 发布

阅读量151

点赞数

文章标签：算法 Perl MySQL Socket

我这里介绍一个极适合大量URL快速排重的方法，这个算法被称为Bloom filter，基本上，它也只适合这样的场合。

这里的大量是指有5000万至1亿的URL，更大的数据量可能也不合适了。

一开始我使用了一个最复杂的做法，是有一个单独的daemon程序负责排重，数据和排重结果通过socket传输。
后来发现不行，仅仅几百万数据要做好几个小时，5000万不把人都急疯了？至于daemon中具体用什么算法就次要了，因为一涉及到网络通讯，速度再快也被拉下来（这里针对的是发送一条记录/返回一条结果的模式，一次传送一批数据则与网络状况有关了）

所以，把目标锁定在单机排重，一开始，试验了perl中的hash，非常简单的代码

use DB_File;

my %db ;

# tie%db,'DB_File',"createdb.dat",ordie"Can'tinitializedb::$! ";

while ( <> ){

chomp $_ ;

$db { $_ } = 1 ; # addcodehere

}

# untie%db;

从标准输入或文件中每行一个URL读入，插入到perl内置的hash表中，这就成了，需要输出结果则预先判断一下插入的key是否存在。

这个方法速度很快，可惜的是，它占用内存太大，假设1个URL平均50字节，5000万个URL需要2.5G内存。

于是又想到一个方法，把部分数据放入硬盘空间，perl中也提供一个现成的模块DB_File，把上面代码中的注释去掉，就可使用DB_File了，用法与hash一样，只是内部用数据库实现的。

测试了一下，速度明显下降了一个档次，仅40万的数据就要1分钟，关键还在于随着数据量的增加，速度下降加快，两者不呈线性关系。

数据量大的时候，有可能用MySQL的性能会比DB_File好，但是总体上应该是一丘之貉，我已经不抱期望了。

也许DB_File可以优化一下，使用更多的内存和少量的硬盘空间，不过这个方案还是太复杂，留给专家解决吧，一般来说，我认为简单的方法才有可能做到高效。

下面我们的重点对象隆重登场：Bloom filter。简单的说是这样一种方法：在内存中开辟一块区域，对其中所有位置0，然后对数据做10种不同的hash，每个hash值对内存bit数求模，求模得到的数在内存对应的位上置1。置位之前会先判断是否已经置位，每次插入一个URL，只有当全部10个位都已经置1了才认为是重复的。

如果对上面这段话不太理解，可以换个简单的比喻：有10个桶，一个桶只能容纳1个球，每次往这些桶中扔两个球，如果两个桶都已经有球，才认为是重复，问问为了不重复总共能扔多少次球？

10次，是这个答案吧？每次扔1个球的话，也是10次。表面上看一次扔几个球没有区别，事实上一次两个球的情况下，重复概率比一次一个球要低。Bloom filter算法正式借助这一点，仅仅用少量的空间就可以进行大量URL的排重，并且使误判率极低。

有人宣称为每个URL分配两个字节就可以达到0冲突，我比较保守，为每个URL分配了4个字节，对于5000万的数量级，它只占用了100多M的空间，并且排重速度超快，一遍下来不到两分钟，极大得满足了我的欲望。

今天时间不够，下一篇再贴代码

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
快速URL排重的方法(一)

我这里介绍一个极适合大量URL快速排重的方法，这个算法被称为Bloom filter，基本上，它也只适合这样的场合。这里的大量是指有5000万至1亿的URL，更大的数据量可能也不合适了。一开始我使用了一个最复杂的做法，是有一个单独的daemon程序负责排重，数据和排重结果通过socket传输。后来发现不行，仅仅几百万数据要做好几个小时，5000万不把人都急疯了？至于daemon中具体用什么...
复制链接

扫一扫

iteye_3952 CSDN认证博客专家 CSDN认证企业博客

码龄6年

87: 原创

-: 周排名

166万+: 总排名

32万+: 访问

: 等级

1146: 积分

20: 粉丝

21: 获赞

4: 评论

97: 收藏

私信

关注

热门文章

最新评论

跟我一起写 Makefile（八）
Sleeping_Sunshine: 没有规矩
智能指针在多线程情况下的问题
浅陌风行: 博主，是不是说智能指针线程不安全是引用计数引起的不安全，而不是对象的修改不安全
在正确的时间吃正确的水果
chentao1215: [code=html] <a href="https://mp.weixin.qq.com/s/8fVUT8UGQL1eYW_QubOsUw">我们什么都不做，每一口美味都是大自然的馈赠。坚持原生态种植，留住绿色健康苹果</a> [/code]
程序员自己的搜索引擎
kgr957: 程序员搜索引擎：http://www.soblog.cc/

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。