相似性相关pHash和simhash

本文介绍了pHash和simhash两种相似性算法,pHash主要用于图像相似度检测,通过DCT降低频率计算哈希;而simhash适用于文本,通过计算汉明距离判断文本相似度。文章探讨了两者优缺点,如simhash对短文本敏感,以及海量数据查找的优化策略。
摘要由CSDN通过智能技术生成

pHash跟simhash很多相近的地方。一个是较多用于图像,一个较多用于文本。


 

一、pHash跟simhash

1、simhash

google的simhash算法可以用来衡量原始文档的相似程度。如何判断呢?很简单,就是求2个文档的simhash的距离(即二进制数字中不相同的位的个数)。

Simhash的算法简单的来说就是,从海量文本中快速搜索和已知simhash相差小于k位的simhash集合,这里每个文本都可以用一个simhash值来代表,一个simhash有64bit,相似的文本,64bit也相似,论文中k的经验值为3。 
该方法的缺点如优点一样明显,主要有两点, 
对于短文本,k值很敏感; 
另一个是由于算法是以空间换时间,系统内存吃不消。 
这里写图片描述 
.

2、感知哈希算法(pHash)
平均哈希算法过于严格,不够精确,更适合搜索缩略图,为了获得更精确的结果可以选择感知哈希算法,它采用的是DCT(离散余弦变换)来降低频率的方法

一般步骤:

  • 缩小图片:32 * 32是一个较好的大小,这样方便DCT计算
  • <
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值