python知网查重_用Python写了个检测抄袭/文章去重算法（nshash）-CSDN博客

本文链接：https://blog.csdn.net/weixin_33344572/article/details/112877628

本文介绍了nshash算法，一种改进的文本去重方法，用于解决中文网页和文章的重复性问题。通过选取文章最长的n个句子进行hash值计算，提高召回率和准确率。同时，提供了基于内存和硬盘的两种key-value数据库实现，以及NSHash类的详细使用方法。nshash思想还可应用于论文查重，但简单的修改可能无法逃避算法的检测，因此建议原创写作。

摘要由CSDN通过智能技术生成

中国人有句话叫“天下文章一大抄”，但是在正规场合下“抄”是要付出代价的，比如考试、写论文是不能抄的，一旦被发现后果相当严重。在互联网出现之前，“抄”很不方便，一是“源”少，而是发布渠道少；而在互联网出现之后，“抄”变得很简单，铺天盖地的“源”源源不断，发布渠道也数不胜数，博客论坛甚至是自建网站，而爬虫还可以让“抄”完全自动化不费劲。这就导致了互联网上的“文章”重复性很高。这里的“文章”只新闻、博客等文字占据绝大部分内容的网页。

我在猿人学网站上写了一个《大规模异步新闻爬虫》的教程，里面涉及了如何抓取网页、如何提取正文内容，却没有将如何去重。中文新闻网站的“转载”(其实就是抄)现象非常严重，这种“转载”几乎是全文照抄，或改下标题，或是改下编辑姓名，或是文字个别字修改。所以，对新闻网页的去重很有必要。

一、去重算法原理

文章去重(或叫网页去重)是根据文章(或网页)的文字内容来判断多个文章之间是否重复。这是爬虫爬取大量的文本行网页(新闻网页、博客网页等)后要进行的非常重要的一项操作，也是搜索引擎非常关心的一个问题。搜索引擎中抓取的网页是海量的，海量文本的去重算法也出现了很多，比如minihash, simhash等等。

在工程实践中，对simhash使用了很长一段时间，有些缺点，一是算法比较复杂、效率较差；二是准确率一般。

网上也流传着百度采用的一种方法，用文章最长句子的hash值作为文章的标识，hash相同的文章(网页)就认为其内容一样，是重复的文章(网页)。

这个所谓的“百度算法”对工程很友好，但是实际中还是会有很多问题。中文网页的一大特点就是“天下文章一大抄”，各种