
【代码克隆检测】
文章平均质量分 89
君的名字
talk is cheap, show me the code!
只要xian哥在,世界充满爱!爱心发射,biubiu~biubiu~❤ ❤ ❤ ❤
展开
-
代码克隆的类别总结
写在前面的话这篇文章是翻译了 A Survey on Software Clone Detection Research这篇文章的第7小节,作者是:Chanchal Kumar Roy and James R. Cordy 在语言上我做了一些修改,让它比较符合我说话的习惯。所有不懂的事情自己一点点弄明白。加油,doggy~序对于两个代码片段来说,基本来说有两种相似性。对于两个相似的代码段,要么是它翻译 2016-08-31 19:24:54 · 4209 阅读 · 4 评论 -
基于K-gram的winnowing特征提取剽窃查重检测技术(概念篇)
写在前面的话偶尔出来放个比较大的招啦。这是我自己目前研究领域的一分部,基于k-gram hash 查重检测文档的相似性这个技术已经是相当成熟的。这个是我这几个月的工作方向中最小的一个模块之一,现在和大家稍微稍微稍微的分享一下我自己的感悟和心得。我比较菜,也比较水,可能很多东西没有前辈们掌握的更加透彻,参悟的更加明白,欢迎各位大神给我提提意见。前天改完作业,我突然发现了好几份相似的代码,逻辑思维和代码原创 2016-11-10 22:32:47 · 11975 阅读 · 11 评论 -
pyssdeep模块
pyssdeep模块python中可以通过pyssdeep模块调用ssdeep来计算文件的ssdeep值。pyssdeep模块的地址:https://github.com/bunzen/pySSDeep。下载文件后,通过sudo python setup.py install来进行安装,不过安装后再使用时会报错:ImportError: libfuzzy.so.2: can转载 2017-02-07 17:07:51 · 3066 阅读 · 0 评论 -
分片哈希piecewise hashing
1.基本概念分片哈希是使用任意的哈希算法对一个文件产生多个校验和而不是对一个文件产生一个校验和。它将一个文件进行切片,将文件分成固定的大小,然后计算每一个切片的哈希值。例如,第一个hash是由前512个字节构成的,第二个哈希值是由后面的另外的512个字节构成的。这个技术最先被用到在图像的取证上的。如果一个错误发生了,只有一个分段hash会受到影响,对于剩下的数据仍然能保持其正确性。分段hash可以使原创 2017-01-22 02:16:42 · 3137 阅读 · 0 评论 -
Fuzzy Hashing 算法工具ssdeep 使用
引言ssdeep 是一个用来计算context triggered piecewise hashes(CTPH) 基于文本的分片哈希算法 ,同样也可以叫做模糊哈希 Fuzzy hashes。CTPH可以匹配同源文档(相似文档),这样的文档可能有一些顺序相同的字节,尽管这些字节可能在一个序列中长度和内容都不尽相同。你可以在这里下载到这个算法的详细解释: Identifying almost ident翻译 2017-02-03 23:41:25 · 7869 阅读 · 3 评论 -
【代码克隆检测】基于K-gram hash 分析特征提取技术(代码篇)
写在前面的话这篇文章,是上面一章 基于K-gram的winnowing特征提取剽窃查重检测技术(概念篇)的延续版,本章为代码篇。那就是说明我们要开始写代码了。明天双十一,大家都在玩淘宝天猫,抢红包,我一个码农苦逼的对着电脑写了一天的代码,并且依然要工作下去。生活真是不!容!易!啊!为了联盟,为了部落,为了伟大的社会主义,为了码农的明天会更好,我依然在写代码,看代码,调程序,看英语。哇咔咔。这个,上面原创 2016-11-11 14:16:17 · 8328 阅读 · 27 评论 -
程序分析的一些概念总结
写在前面的话写给我自己看的,有的地方有的人可能看不懂吧,学到的东西的快速记忆而已。基本概念总结1.代码克隆和代码剽窃的区别 a. 代码克隆(code clone)代码克隆主要指的是一个程序内(intra-app)某段代码被重复用了几次这种。 你可以设想一种应用scenario, 就是一个人写代码的本事很拙劣了,有些事情可能写个函数,然后重复调用几次就可以的,但是他大哥偏偏写了重复的几大段。这个就原创 2017-04-20 22:00:16 · 1425 阅读 · 1 评论 -
Boreas: 一种基于token 的精确并且大规模检测代码克隆的方法
文章连接:http://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=6494937写在前面的话代码克隆检测的方法有很多,比如说 textual-based, token-based, tree-based, graph-based, metric-based,hybird based 使用的标准不同,代码克隆的检测分类...翻译 2018-03-26 04:58:56 · 2580 阅读 · 1 评论