中文查重原理及算法实例（python）

glory8901

于 2021-10-25 15:27:39 发布

阅读量5k

点赞数 4

分类专栏：数据挖掘文章标签： python 算法自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/midae/article/details/120418269

版权

数据挖掘专栏收录该内容

5 篇文章

订阅专栏

本文介绍了SimHash算法的原理及其在文本相似度检测中的应用，包括分词、加权、合并和降维等步骤。通过Python实现，用于处理大量文档的初步聚类和详细比较。此外，还分享了实际的项目查重设计，适用于论文查重、科技项目申报审核等场景，提高工作效率。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1. simhash的算法原理

https://github.com/1e0ng/simhashhttps://github.com/1e0ng/simhash simhash的中文实现(python) - 简书最近工作上需要处理文本相似度的问题，一共5万多个文档；第一步，是先是要进行颗粒度较粗的，发现基本相似的文档，进行基本的 “聚类”；第二步，针对相似的文档，然后进行详细的比较；...https://www.jianshu.com/p/1187fb7c59c5 GitHub - tianlian0/duplicate-check-sample: 文本查重SDK，可用于论文查重、标书查重、文档查重、作业查重、合同查重、防串标等场景。关联：duplicate checkhttps://github.com/tianlian0/duplicate-check-sample

2. 实战

【NLP】Python实例：基于文本相似度对申报项目进行查重设计 - 伏草惟存 - 博客园关于查重系统很多人并不陌生，无论本科还是硕博毕业都不可避免涉及论文查重问题，这也对学术不正之风起到一定纠正作用。单位主要针对科技项目申报审核，传统的方式人力物力比较大，且伴随季度性的繁重工作，效率不高https://www.cnblogs.com/baiboy/p/check.html

文本相似性处理（好比论文查重）_阿拉斯加大闸蟹的博客-CSDN博客首先介绍simHashsimhash算法分为5个步骤：分词、hash、加权、合并、降维直接给例子，理解的更加生动些吧：https://blog.csdn.net/chinawangfei/article/details/823858421：分词。首先，判断文本分词，形成这个文章的特征单词。然后，形成去掉噪音词的单词序列。最后，为每个分词加上权重。我们假设权重分为5个级别（1~5），比如：“ 美国“51区”雇员称内部有9架飞碟，曾看见灰色外星人 ” ==> 分词后为 “ 美国（4） 51https://blog.csdn.net/singgel/article/details/106575438

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。