Near-duplicate Detection(文章相似度计算)

该博客主要探讨了文本内容的相似度检测,包括Jaccard距离、余弦相似度以及SimHash和MinHash等方法。作者提到官方SimHash不支持中文,因此建议结合结巴分词进行关键词提取和权重计算来处理中文文本。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

近一个月主要研究文本内容的相似度


考虑的主要方法为:

jaccard distance

cosine similarity

simHash

minHash

some tricks:simple but efficient


simhash:

官方的simhash并不大支持中文:

中文版并不支持索引 没有索引的simhash不算simhash哈

因此直接利用官方的,加入结巴分词提取关键字及权重即可:

#simhash
def t2():
	
	cFile=open('7dataSingle.txt').read()
	lines=cFile.splitlines()
	
	initList=[]
	line =lines[0]
	line=line.split('\t')
	content=bs(line[2]).get_text().encode('utf-8')
	kwList=jcut.extract_tags(content,20,True)
	initList.append((line[0].strip(),Simhash(kwList)))

	index=SimhashIndex(initList,64,3)

	for line in lines:
		line=line.
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值