数学之美

最新推荐文章于 2022-09-12 09:57:08 发布

cjneo

最新推荐文章于 2022-09-12 09:57:08 发布

阅读量416

点赞数

分类专栏：算法文章标签：数学

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/cjneo/article/details/46337027

版权

算法专栏收录该内容

14 篇文章 0 订阅

订阅专栏

信息指纹：

任何信息都可以对应一段不太长的随机数只要算法设计得好，指纹就很难重复。

例如将网址（约100*8bit）映射成128bit

google 相似hash 查相同网页，假定网页中有若干词t1 t2 t3，他们权重（tf idf）为为iew1,w2

第一步将八位二进制指纹扩展为八个实数，第二步将八个实数变为八位二进制数。

若信息指纹相似越高则文章相似的可能性越大。

布隆过滤器：

用来解决识别垃圾邮件的问题，hash表太大了。例如将每个地址都对应成8字节的信息指纹，而三列表的存储效率为1/2,故一亿个地址大概需要1.6GB空间（16亿字节内存）

布隆过滤器只需要1/4或者1/8的内存，先建立16亿个比特位即两亿字节的向量，并清零。

将电子邮件x用八个不同的随机数生成器产生八个信息指纹，将其映射到1-16亿中的八个自然数中，将这八个位置都设置为1.

检测时，如果八个比特都为1，则判定其在名单中（有可能会产生误判）

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
数学之美

信息指纹：任何信息都可以对应一段不太长的随机数只要算法设计得好，指纹就很难重复。例如将网址（约100*8bit）映射成128bit布隆过滤器：用来解决识别垃圾邮件的问题，hash表太大了。将电子邮件x用八个不同的随机数生成器产生八个信息指纹，将其映射到1-16亿中的八个自然数中
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。