探讨一下论文查重系统的设计方法

论文查重系统通常采用模糊搜索和关键词对比,先断句再逐句比对,通过搜索引擎进行高级模糊匹配。随着技术发展,SAAS和云概念引入,出现论文查重托管服务。为避免高重复率,可以研究搜索引擎的工作原理,以彼之道还制彼身。
摘要由CSDN通过智能技术生成

对于论文查重系统,见过了一些,主要设计思路都是依据模糊搜索+“关键词”,对于大段文字的对比,确实是一个看似简单而又复杂的问题。

按软件开发者思路,这类软件的起源应该不是抄袭之风严重,而是被举报者众多,因为学校或某些机构处理不过来,所以痛下狠手,从根本上减少这类现状。

当然,以上言论,尽可当戏言,言归正传,按开发者推论,查重软件的最初设计应该是先断句,再逐句对比,把雷同句保存下来,最后总结归纳。

这种模式的优点是对比速度快,适用于长篇幅类论文。当人们发现这种方法的基本道理后,大家都突然间不约而同地想通了,把“的”变成“地”的思路,一时间遍地10%啊。

这个时候,学校的威力突显出来了,那就是它有大批的人力资源可以用,顿时各种思路层现,有牛人开始使用谷歌高级搜索来解决模糊对比的问题,把问题抛出给搜索引擎,让能力强者做他擅长的事,于是原本10%的重复率,立刻提升到40%

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值