文本相似度计算-google的simHash汉明距离

本文介绍了在大规模文本相似性计算中,如何利用simHash和汉明距离来解决传统向量空间模型VSM的问题。在VSM方法中,计算量过大不适合处理海量文本,而simHash通过生成二进制签名并利用汉明距离快速判断文本相似性,适合用于搜索引擎的网页判重处理。文章详细阐述了simHash的计算思想,并提供了Java实现。
摘要由CSDN通过智能技术生成

一、概述

       针对文本相似性计算,很多开发朋友首先想到的应该是使用向量空间模型VSM(Vector Space Model)。使用VSM计算相似度,先对文本进行分词,然后建立文本向量,把相似度的计算转换成某种特征向量距离的计算,比如余弦角、欧式距离、Jaccard相似系数等。这种方法存在很大一个问题:需要对文本两两进行相似度比较,无法扩展到海量文本的处理。想想像Google这种全网搜索引擎,收录了上百亿的网页,爬虫每天爬取的网页数都是百万千万级别的。为了防止重复收录网页,爬虫需要对网页进行判重处理。如果采用VSM方法,计算量是相当可观的。

 

二、思想

输入为一个N维向量V,比如文本的特征向量,每个特征具有一定权重。输出是一个C位的二进制签名S。

    1)初始化一个C维向量Q为0,C位的二进制签名S为0。

    2)对向量V中的每一个特征,使用传统的Hash算法计算出一个C位的散列值H。对1<=i<=C,

       如果H的第i位为1,则Q的第i个元素加上该特征的权重;

       否则,Q的第i个元素减去该特征的权重。

    3)如果Q的第i个元素大于0,则S的第i位为1;否则为0;

    4)返回签名S。

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值