博客反抄袭工作的一些思考和尝试

CSDN 专栏收录该内容
5 篇文章 1 订阅

近日开始着手反抄袭工作,做了一些思考和尝试。

现状与动机

目前看,比较明显,容易判定的抄袭行为,主要包括:
  • 直接完整复制,虽然容易被识破,但是因为成本低,甚至有些抄袭者使用 爬虫进行大量搬运。

  • 洗稿,主要是打乱句子和段落顺序,使其看起来是另一篇正常的文章,但 是其实是比较简单的改头换面,句子仍然都是抄袭而来。

  • 洗稿,但是更为深入,对句子也做了大量修改,这种洗稿较难识别,甚至 与一些正常的讨论、笔记等文章有一定的模糊地带,但是这种方式工作量 大,多⻅于社会新闻、时评热稿等高价值文章的抄袭行为。

  • 剪刀党,可能剪裁自多篇文章,并非简单抄袭和复制某一篇文章。

  • 部分抄袭,对于技术文章,有部分抄袭行为是围绕源头的核心内容,例如 代码进行搬运,并重写文字部分。这种行为的判定可以参考科技论文对抄袭的判定,大量不正规引用,或者未做清晰标识的引用,仍然是抄袭。

  • 在CSDN,抄袭的主要动机是建立自己的个人影响力,故抄袭的产出主要仍然是可以 阅读的文章。反抄袭是一个与抄袭者⻓期对抗的过程,随着检查手段的发展,抄袭行 为也会演化。反抄袭是一个复杂工程,需要多方面的努力。

思考

反抄袭,必然从查重入手,那么第一个反应是利用既有的搜索技术,实现匹配查找。 但是搜索与查重的目标不同,其着重点也不同,直接使用效果并不好。假阳性比例会 非常高。

数据库专家周正中老师介绍过关于相似 HASH 的运用。这种策略可以有效对抗简 单复制的抄袭着,但是对于洗稿行为就不太有效。抄袭者只需要简单的增加一些无关 紧要的文字,就可以使相似Hash失效。

相对来说,通常的抄袭行为仍然会保持句子的原貌,因此构造一个对句子高度敏 感的查重算法,作为整个反抄袭工作的起点,是一个可行的思路。

参考自然语言处理工作中的词袋概念,我们可以构造一个“句袋”系统,将每一篇文 章按句子切分,然后在整个句库中查找匹配的句子。

目前梳理的主要步骤包含

  • - 将既有文章按句切分,在数据库中保存所有句子的指纹和相关特征
    • 建立指纹主要是为了引入行之有效的数据库索引,所以很多种散列 算法都可以用在这里,为了简单,我们可以先选用md5,虽然在密 码管理等领域,md5已经不是一个非常好的选择,但是在这种句袋模型里,它仍然够用

    • 在指纹列上建立一个高度压缩,有利于快速匹配的索引,目前使用的是 PostgreSQL 的 bloom 索引。

    • 保存每个句子的文章 id,便于查询时找到被抄袭的文章,这个字段要允许同一个句子出现在多篇文章,PostgreSQL JSONB 非常适用。

    • 记录每个句子出现在多少篇文章中,这种计数经常在NLP中被称作频率,但是我们在写入数据库,和查询计算的时候仅需 计数。PostgreSQL 的 upsert 支持可以很好的完成这个工作

  • 因为具体的业务原因,同一篇文章可能出现在我们的数据集中多 次,因此写入时要有去重机制,最终我通过 insert on conflicit do update where 形式的写入查询,实现了这个幂 等写入逻辑
  • 搜索时,我们同样要构造文章句袋,然后生成句子的指纹集合,再从数据 库中做一个 where fingerprint = ANY(:fingerprints) 查询。
  • 理想状态下正常的文章应该不会有重用的句子,但是叙述性或抒情文字, 甚至一些科技内容,例如数学定理,确实可能出现在多篇文章,因此要设 定重复句的阈值,包括最低计数和在句袋中的占比,超过阈值才会触发判 定。
  • 与词频类似,频率越低的句子,越能表现文章特征,在查重时如果匹配多 篇文章,应按照频率由低向高排列。
  • 基于关系型数据库构造句库,可以有效的满足句库本身的持续增⻓需要。

挑战

在开发过程中,我也发现了一些问题。
  • 目前粗糙的开发测试来看,统计上句库表的行数大概与文章数目有两个数 量级的差距,故要有分库分表的预案

  • PostgreSQL 要求表的主键必须是 Btree索引,否则我可以直接将 fingerprint 作为主键

  • 大规模数据集的查询效果,仍有待验证,目前的一个挑战是开发尽可能快 速的写入脚本——为了与整个NLP组的业务规则保持一致,我们尽可能重用 既有的 Python代码,那么如何提速成为了一个不大不小的挑战,在将来反 抄袭系统可能会引入一些更快的技术工具

  • -  目前看分句仍然是一个问题,简单的基于标点符号的断句算法,对技术文 章仍有一些不够用的情况。这可能是一个需要持续改进的工作,并且反抄 袭对文章的句子提取要求,与推荐等 NLP 工作存在一些不同。

  • -  单一的句库模型并不能处理所有的抄袭情况,反抄袭工具开发是一个⻓期 的持续过程。

  • -  反抄袭永远需要热情的用户和有责任心的团队密切合作

  • 8
    点赞
  • 4
    评论
  • 3
    收藏
  • 一键三连
    一键三连
  • 扫一扫,分享海报

现在论文抄袭、学术打假成为学术界、媒体关注的话题。有的学者心存侥幸,有的学者对学术严谨性未加重视等,以至于被相关人士揭发举报,最终身败名裂。而许多毕业生因为种种原因,并未对论文抄袭现象加以重视,最后不能顺利毕业,荒废了几年时间,得不偿失。现在提供论文检测的机构主要来源于三大中文期刊数据库,即中国知网论文检测系统,万方论文相似性检测系统,维普通达检测系统。 现在应用较多的是中国知网万方的检测系统,但是两者都不是免费的,其中,中国知网的费用相对高,在淘宝上一篇硕士论文的检测费用达到两百元。介于此考虑,我在网上收集了一下,提供免费检测论文的几个网站。虽然与权威检测机构的检测结果不一定完全一致,但肯定对论文的修改是有一定帮助的。免费论文检测 1 PaperPass论文通行证网 www.paperpass.org/index.aspx?f=A4BBA37525E99A492050231C7323CF76 系统推出免费试用功能,通过您的手机号码即可申请。申请成功后,您将免费获得3000字的检测量(每个手机限申请一次)。 注:由于服务器服务能力有限,网站每天(从零点计算)提供1000个用户申请免费试用,申请完为止,请您在每天的较早些时候申请,敬请谅解。 PaperPass.Org网站诞生于2007年,是全球首个中文文献相似度比对系统,运营三年来,已经发展成为最权威、最可信赖的中文原创性检查预防剽窃的在线网站。目前在用检测版本是汲取了大量的用户意见后开发的,更新了比对算法,比对的效率准确率大大提高,另外还增加了上传文件、下载报告、引用率统计等实用功能。我们将继续贴近用户需求,升级比对算法,为用户提供更为专业的论文原创性检测服务。 2 维普通达检测系统 http://gocheck.cn/s/8059 第一次成功充值之后即赠送第一次充值额度10%的积分,截止到4月1日,先注册先得哦。 维普-通达论文引用检测系统(简称VTTMS)是由重庆维普资讯有限公司与通达恒远(北京)信息技术有限公司共同研制而成,该系统结合了维普资讯的数据资源优势与通达的数据挖掘技术并成功地应用在大规模文本比对领域上的创新产品。通过对文档关键语义片段的识别、检测,可检测出文档中存在的不当引用、过度以用,甚至是抄袭等现象,并计算出文档的引用率、复写率自写率等重要指标,为各级论文评定、检测、发表机构提供论文评定论文收录的检测依据。 该系统采用TONDA公司自主研发的核心算法技术,具有业内领先的检测速度。全文比对数据库由专业的期刊数据库、广泛的web互联网数据、TONDA共享数据库用户自建库组成,保证了比对源的专业性广泛性。VTTMS具备很高的实用性易用性,自其成功研发以来,已经在全国范围内众多行业部门得到了广泛使用,获得了高度的好评,取得了良好的口碑。 3 知识产权卫士-拷克网 http://www.copycheck.com.cn 拷克网成立于2009年,是专业的内容抄袭智能检测平台服务商,成立以来一直执行 “技术领先战略”,开创了具有国际领先水平的核心、高端、基础技术---互联网在线中文智能抄袭检测技术,作为一家拥有领先技术的服务商,我们致力于通过对技术的创新应用,来满知识版权组织个人的需要。 公司的技术核心是内容抄袭智能检测技术研究,以分词技术为基础,以结构智能方法论为指导,开发出文本语义结构化引擎、版式语义结构化引擎、行为语义分析引擎,由此构建了互联网内容抄袭智能检测服务平台。该服务平台主要提供:网站监控、数据萃取、信息标引、情报发现与分析、知识网络、行为语义分析等在线服务。 4 论文检测大师 http://www.check-paper.com/ 只支持 doc 类型文件上传!提交您的有效论文,请不要上传无用文档,每个IP仅有2次检测机会,您的检测结果将以word文档的方式发送到您的邮箱里。 5 中国搜文章照妖镜 http://www.zhongguosou.com/ 文章照妖镜不但可用来分析文章抄袭的程度,而且可用来检测自己的博客文章被别人复制、被别人疯狂传播的程度,帮你保护你博客的版权。 6 外文论文检测系统 www.turnitin.com 必杀招:智慧语料库技术+GradeMark™ +专利的 Peer Review ,在全世界90多个国家、超过7000所高等院校应用,每天检测10万篇论文。适用:英文论文抄袭检查 http://www.dustball.com/ 7 繁体论文检查网站: 网址:http://www.ppvs.org 网址:http://www.paper119.com/
马上要预答辩了,在网上新下了个查重软件,感觉不错,特来推荐按! 说明: ⑴.本软件不能检查已发表文档,因为已发表的文档往往已经到处传播引用开来。 ⑵.本软件的每检测400字需要6秒钟,一篇8000字的文档至少需要2分钟,需要一点点耐心。 ⑶.本软件检测结果存在误差,用更小的文档块进行检测,可以减少误差,但需要的时间会相应增加,经过我们在多家编辑部的试用情况,块数大小定为200-400字较为合适,此时误差率也是可以接受的,文档相似率一般是比实际的要低。 ⑷.如果某个相似块未显示,说明未检索到相似的文档。 ⑸.本软件每天检测字数不能超过10万字,否则服务器过载,将封锁IP。 ⑹.本软件后台数据库覆盖188亿个网页490万篇论文。 ⑺.本软件检测文档不得超过4000字,如需要更长的文档支持,需要购买收费版。 ⑻.当软件未能联网时,软件检测按钮将变虚。 ⑼.本免费版由于服务器压力,有时候可能不能正常检测,出现这种情况,请速联系我们,或者由单位出面购买单位版或者豪华版。 ⑽.本软件检测结果只能作为一个参考,可以使用表格右键导出详细检查结果发送给被检查本人,本软件不对是否剽窃做结论,只是告诉你与现存文献相似度高于80%的文字比例所占文章总数比例是多少。 ⑾.我们将持续投入剽窃的研究,本人已获批国家自科基金进一步剽窃问题,我们将继续发表一系列论文,以及继续申请相关专利。软件不完善的地方敬请原谅。 欢迎提供馈意见,我们将持续升级本软件。 我们的联系方式:runorsoft@163.com 我们的博客:http://hi.baidu.com/whusoft 补充: ROST剽窃系统的技术特点: 1.覆盖面广,通过混合引擎覆盖约188亿个网页490万篇论文。系统采用自研的ROST WebSpider算法实现了对互联网期刊网的广度覆盖。但需要提醒您的是,本剽窃系统不能覆盖所有文献。 2.模糊检测,柔性匹配,不管抄袭者如何替换部分字符,删除部分标点符号,系统都能通过相似度来进行判定,让抄袭者无所遁形。系统采用自研的ROST Similar算法实现高速相似性检测度量。系统采用自研的QingQing算法提取信息指纹,在P3、512MBPC上,分词速度为13MB/S,已在互联网提供评测版供业内评测。 3.引文及参考文献去除,使得误判的可能性降至最低。 4.分块检测机制,将文章的每一文本块与其他文档的相似度都精确的表示出来了,每一文本块约为200字至400字不等,以红色表示极度相似(相似度大于80%),一目了然,清晰醒目。 5.相似文档模块跟踪技术,可以通过简单操作直接定位相似文档模块位置,直观明了。 6.方便的结果分析功能,自动分析文档相似结果,给出评价意见。 7.支持多种文件格式的文档,包括PDF、DOC、PPT、XLS、TXT等文档。 (PDF文件需另行安装ROST文件格式识别引擎) 8.可将分析结果进行存盘为专有数据文件,不用复查找浪费时间。 9.应用范围广泛:可用于抄袭鉴定、科技查新、专利查新、引用查询、转载查
©️2021 CSDN 皮肤主题: 大白 设计师:CSDN官方博客 返回首页
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、C币套餐、付费专栏及课程。

余额充值