摘要
本周主要是找了一下关于结构方面的查重
本周总结
1、对与上述的结构查重,找到了一种方法,是由张丽萍主编的《基于AST的多种语言代码抄袭检测方法研究》。主要分成了三个部分,第一步是代码的形式化过程,将代码转化为AST序列,第二部是计算相似度,运用序列匹配算法对比生成的AST序列。第三步是聚类分析,运用前两部保存的信息进行聚类分析,找到抄袭。
2、她在文章中讲到所用到的工具ANTLR,使用它来进行代码的形式化,我所实现的具体内容见这里。
下周期望
1、先做出来代码的AST分析功能,使其更加完善,如果比较简单,那么就考虑做那个对比的第二部
2、找一找有没有其他的接口
3、看看网络查重方面的资料