Near-duplicate Detection（文章相似度计算）

最新推荐文章于 2020-12-10 10:30:08 发布

無菌與

最新推荐文章于 2020-12-10 10:30:08 发布

阅读量937

点赞数

分类专栏：信息检索（web IR）文章标签：文本去重 near-duplicate simhash minhash 文本相似度

本文链接：https://blog.csdn.net/junk2012/article/details/47687041

版权

该博客主要探讨了文本内容的相似度检测，包括Jaccard距离、余弦相似度以及SimHash和MinHash等方法。作者提到官方SimHash不支持中文，因此建议结合结巴分词进行关键词提取和权重计算来处理中文文本。

摘要由CSDN通过智能技术生成

近一个月主要研究文本内容的相似度

考虑的主要方法为：

jaccard distance

cosine similarity

simHash

minHash

some tricks：simple but efficient

simhash：

官方的simhash并不大支持中文：

中文版并不支持索引没有索引的simhash不算simhash哈

因此直接利用官方的，加入结巴分词提取关键字及权重即可：

#simhash
def t2():
	
	cFile=open('7dataSingle.txt').read()
	lines=cFile.splitlines()
	
	initList=[]
	line =lines[0]
	line=line.split('\t')
	content=bs(line[2]).get_text().encode('utf-8')
	kwList=jcut.extract_tags(content,20,True)
	initList.append((line[0].strip(),Simhash(kwList)))

	index=SimhashIndex(initList,64,3)

	for line in lines:
		line=line.