对于论文查重系统,见过了一些,主要设计思路都是依据模糊搜索+“关键词”,对于大段文字的对比,确实是一个看似简单而又复杂的问题。
按软件开发者思路,这类软件的起源应该不是抄袭之风严重,而是被举报者众多,因为学校或某些机构处理不过来,所以痛下狠手,从根本上减少这类现状。
当然,以上言论,尽可当戏言,言归正传,按开发者推论,查重软件的最初设计应该是先断句,再逐句对比,把雷同句保存下来,最后总结归纳。
这种模式的优点是对比速度快,适用于长篇幅类论文。当人们发现这种方法的基本道理后,大家都突然间不约而同地想通了,把“的”变成“地”的思路,一时间遍地10%啊。
这个时候,学校的威力突显出来了,那就是它有大批的人力资源可以用,顿时各种思路层现,有牛人开始使用谷歌高级搜索来解决模糊对比的问题,把问题抛出给搜索引擎,让能力强者做他擅长的事,于是原本10%的重复率,立刻提升到40%