文本相似度计算-google的simHash汉明距离

最新推荐文章于 2020-04-07 09:37:32 发布

shunqs

最新推荐文章于 2020-04-07 09:37:32 发布

阅读量1.3k

点赞数 1

分类专栏：算法篇工具篇数据挖掘篇文章标签： simHash、汉明距离、相似度计算、分析

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/shunqs/article/details/84617478

版权

本文介绍了在大规模文本相似性计算中，如何利用simHash和汉明距离来解决传统向量空间模型VSM的问题。在VSM方法中，计算量过大不适合处理海量文本，而simHash通过生成二进制签名并利用汉明距离快速判断文本相似性，适合用于搜索引擎的网页判重处理。文章详细阐述了simHash的计算思想，并提供了Java实现。

摘要由CSDN通过智能技术生成

一、概述

针对文本相似性计算，很多开发朋友首先想到的应该是使用向量空间模型VSM（Vector Space Model）。使用VSM计算相似度，先对文本进行分词，然后建立文本向量，把相似度的计算转换成某种特征向量距离的计算，比如余弦角、欧式距离、Jaccard相似系数等。这种方法存在很大一个问题：需要对文本两两进行相似度比较，无法扩展到海量文本的处理。想想像Google这种全网搜索引擎，收录了上百亿的网页，爬虫每天爬取的网页数都是百万千万级别的。为了防止重复收录网页，爬虫需要对网页进行判重处理。如果采用VSM方法，计算量是相当可观的。

二、思想

输入为一个N维向量V，比如文本的特征向量，每个特征具有一定权重。输出是一个C位的二进制签名S。

1）初始化一个C维向量Q为0，C位的二进制签名S为0。

2）对向量V中的每一个特征，使用传统的Hash算法计算出一个C位的散列值H。对1<=i<=C,

如果H的第i位为1，则Q的第i个元素加上该特征的权重；

否则，Q的第i个元素减去该特征的权重。

3）如果Q的第i个元素大于0，则S的第i位为1；否则为0；

4）返回签名S。

最低0.47元/天解锁文章

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
文本相似度计算-google的simHash汉明距离

一、概述针对文本相似性计算，很多开发朋友首先想到的应该是使用向量空间模型VSM（Vector Space Model）。使用VSM计算相似度，先对文本进行分词，然后建立文本向量，把相似度的计算转换成某种特征向量距离的计算，比如余弦角、欧式距离、Jaccard相似系数等。这种方法存在很大一个问题：需要对文本两两进行相似度比较，无法扩展到海量文本的处理。想想像Google这种全网...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。