python数据库查出来问号_用Python写了个检测抄袭/文章去重算法（nshash）

最新推荐文章于 2023-12-01 10:43:51 发布

咸鱼葱

最新推荐文章于 2023-12-01 10:43:51 发布

阅读量531

点赞数 1

文章标签： python数据库查出来问号

本文链接：https://blog.csdn.net/weixin_33894886/article/details/112228548

版权

本文介绍了nshash算法，一种用于文章去重的方法，旨在解决中文网页抄袭问题。通过选取文章最长的n句话进行hash，提高召回率。算法包括分句、hash计算和生成similar_id，提供了内存和硬盘两种数据库实现。nshash的思想也可应用于论文查重，但简单的篡改可能无法逃避算法检测。

摘要由CSDN通过智能技术生成

中国人有句话叫“天下文章一大抄”，但是在正规场合下“抄”是要付出代价的，比如考试、写论文是不能抄的，一旦被发现后果相当严重。在互联网出现之前，“抄”很不方便，一是“源”少，而是发布渠道少；而在互联网出现之后，“抄”变得很简单，铺天盖地的“源”源源不断，发布渠道也数不胜数，博客论坛甚至是自建网站，而爬虫还可以让“抄”完全自动化不费劲。这就导致了互联网上的“文章”重复性很高。这里的“文章”只新闻、博客等文字占据绝大部分内容的网页。

我在猿人学网站上写了一个《大规模异步新闻爬虫》的教程，里面涉及了如何抓取网页、如何提取正文内容，却没有将如何去重。中文新闻网站的“转载”(其实就是抄)现象非常严重，这种“转载”几乎是全文照抄，或改下标题，或是改下编辑姓名，或是文字个别字修改。所以，对新闻网页的去重很有必要。

一、去重算法原理

文章去重(或叫网页去重)是根据文章(或网页)的文字内容来判断多个文章之间是否重复。这是爬虫爬取大量的文本行网页(新闻网页、博客网页等)后要进行的非常重要的一项操作，也是搜索引擎非常关心的一个问题。搜索引擎中抓取的网页是海量的，海量文本的去重算法也出现了很多，比如minihash, simhash等等。

在工程实践中，对simhash使用了很长一段时间，有些缺点，一是算法比较复杂、效率较差；二是准确率一般。

网上也流传着百度采用的一种方法，用文章最长句子的hash值作为文章的标识，hash相同的文章(网页)就认为其内容一样&