海量数据处理（四） simhash

最新推荐文章于 2023-02-28 13:43:34 发布

时光耗子_hzh

最新推荐文章于 2023-02-28 13:43:34 发布

阅读量356

点赞数

分类专栏：海量数据处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_33225741/article/details/71277948

版权

海量数据处理专栏收录该内容

4 篇文章 4 订阅

订阅专栏

本文介绍了simhash算法在海量数据处理中的应用，通过分词、hash、加权、合并和降维5个步骤，实现对文本的快速相似度判断。在大数据场景下，当面对大量视频文件，simhash能有效检测重复内容，避免不必要的上传，并通过鸽巢原理、倒排索引和海明距离优化搜索效率。

摘要由CSDN通过智能技术生成

如果有一天，你向优酷传了一个记录着你和我当天一起去长城玩的小视频（假设其大小为1G）。在你传完以后，我也传了一个和你一模一样的视频。但是我一点击上传，几秒钟就现设上传成功。这是为什么呢。这就是这这会要讨论的simhash算法。

simhash过程一共有5个步骤，分词，hash,加权,合并，降维。

第一步分词。假设现在给一个句子：我今天有课。再给一个句子：我明天有课。很明显这两个句子代表的含义明显不一样，如果按照simhash的步骤来看，那么我们首先应该分词：第一个句子：我(),今天(),有课()。括号内代表着不同的权重。同理第二个句子可以分为：我(),明天(),有课().括号内的权重应该有以下两种方法：静态给定和统计出现频率来给权重。

第二步hash：hash结果将以二进制表示，比如给权重如下：我(5),今天(4),有课(3)；我(5),明天(3),有课(3)。假设哈希结果为”我”:100101, “今天”:101011。即通过某种算法，得出了一系列数字。

第三步加权：现在要对“我”这个字加权，遇到1则哈希值与权重正乘，遇到0则哈希值与权重负乘结果为100101*5 =5-5 -5 5 -5 5 。“今天”的加权结果为 101011*4 =4 -4 4 -4 4 4其他词同样操作。

第四步合并：将所有的加权结果累加，变成只有一个序列串。比如对“我今天”进行加权累加，得到的结果为9 -9 1 -1 1 9

第五步降维：对于其结果，如果大于0就制为1，否则就置为0。所以得到结果：101011.这就是“我今天”最后得到的哈希值。

回到最开始的问题。如果我们最后看到你传的视频的哈希值和我传的视频的哈希值，是一模一样的。那就代表着，我们两个传的文件，是一模一样的。那既然一模一样，为什么我还要再传一遍呢？数据库里改一改就好了嘛。

换个话题继续讨论。如果你的数据库里存在着百万，千万，甚至上亿个哈希值。并且系统对于上传文件要求对于视频允许存在一些细微的差别（比如多了几秒片头片尾的黑屏）那么我们如果继续使用这种挨个比较的算法，那时间上会不会太慢了？如果太慢了，那又该怎么优化呢？

我们需要引入三个个新的概念：鸽巢原理、倒排索引、海明距离。三个概念在此不再详述，请自行百度。

依照惯例，我们对于相似度的要求是在64位系统下海明距离不超过3，那么根据鸽巢原理，我们将其64位平均分为4个小块。如果这两个视频是类似的，这样就一定会有一个小块里的哈希值是全等的。那么我们建立倒排索引，通过倒排索引来进行查找，这样就不需要挨个比较了。

时光耗子_hzh

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。