Near-duplicate Detection(文章相似度计算)

该博客主要探讨了文本内容的相似度检测,包括Jaccard距离、余弦相似度以及SimHash和MinHash等方法。作者提到官方SimHash不支持中文,因此建议结合结巴分词进行关键词提取和权重计算来处理中文文本。
摘要由CSDN通过智能技术生成

近一个月主要研究文本内容的相似度


考虑的主要方法为:

jaccard distance

cosine similarity

simHash

minHash

some tricks:simple but efficient


simhash:

官方的simhash并不大支持中文:

中文版并不支持索引 没有索引的simhash不算simhash哈

因此直接利用官方的,加入结巴分词提取关键字及权重即可:

#simhash
def t2():
	
	cFile=open('7dataSingle.txt').read()
	lines=cFile.splitlines()
	
	initList=[]
	line =lines[0]
	line=line.split('\t')
	content=bs(line[2]).get_text().encode('utf-8')
	kwList=jcut.extract_tags(content,20,True)
	initList.append((line[0].strip(),Simhash(kwList)))

	index=SimhashIndex(initList,64,3)

	for line in lines:
		line=line.
引用: 根据引用,当在数据库中插入数据时,如果插入的数据的主键已经存在,就会出现1062 - duplicate entry的报错。这个报错意味着数据库中已经存在了一个具有相同主键值的记录。这个错误通常发生在插入数据时使用了重复的主键值。 引用: 根据引用,在MySQL转存过程中,如果使用类似于"INSERT INTO dbbackup.tb1 SELECT * FROM tb1"的SQL语句,当目标表中已经存在与源表中相同主键值的记录时,就会出现1062 - duplicate entry的报错。 引用: 引用中提到,"duplicate entry '...' for key 'PRIMARY'"表示要插入的数据的主键值已经存在,不能再重复添加相同的主键值。例如,"Duplicate entry '0' for key 'PRIMARY'"表示主键为0的数据已经存在,不能再插入主键值为0的数据。 综上所述,1062 - duplicate entry的报错表示在插入数据时遇到了已经存在相同主键值的记录,需要通过修改主键值或删除已存在的记录来解决该问题。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *2* [【数据库-MySql】[Err] 1062 - Duplicate entry '1-1' for key 'PRIMARY'](https://blog.csdn.net/chenlu5201314/article/details/100521863)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_1"}}] [.reference_item style="max-width: 50%"] - *3* [mysql1062错误: Duplicate entry ‘...‘ for key ‘PRIMARY](https://blog.csdn.net/weiwu13/article/details/122687915)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_1"}}] [.reference_item style="max-width: 50%"] [ .reference_list ]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值