How Far We Have Progressed in the Journey? An Examination of Cross-Project Defect Prediction

最新推荐文章于 2019-03-14 15:23:09 发布

我爱写报告

最新推荐文章于 2019-03-14 15:23:09 发布

阅读量679

点赞数

分类专栏：论文笔记

论文笔记专栏收录该内容

49 篇文章 10 订阅

订阅专栏

题目： How Far We Have Progressed in the Journey? An Examination of Cross-Project Defect Prediction
作者： Yuming Zhou, Yibiao Yang, Hongmin Lu, Lin Chen, Yanghui Li, Yangyang Zhao
单位： Nanjing University, Guilin University of Electronic Technology
发表： TOSEM 2018

动机

调研我们在跨项目缺陷预测领域究竟取得了多大的进步。

跨项目缺陷预测

一直是缺陷预测领域中的难点
原项目和目标项目的数据常常呈现出截然不同的分布，违背了大多数模型的相似分布假设
很多源项目和目标项目数据由不同度量元组成

方法

首先利用目标项目来构建两个简单的缺陷预测模型：ManualDown和ManualUp，一个认为较大的软件模块更有可能包含缺陷，一个认为较小的软件模块更有可能包含缺陷，这两个模型的构建不需要源项目。
然后利用相同的数据集，相同的性能指标来衡量以往工作中的模型与这两个简单模型相比的优势。以往模型的性能直接引用原文章中列出的实验结果数据。

准确性评估

分类模型的性能指标

Recall, Precision, PD, PF, Correctness, Completeness, $F_\beta$ , $G_1$ , $G_2$ , $G_3$ , Balance, ED, MCC, NECM, $Z^*$ ：在TP, FP, FN, TN基础上得到
AUC：ROC曲线下方区域的面积。ROC曲线是以二分类模型的PF为x轴，PD为y轴得到的一个曲线

排序性能指标

AUCEC, NofB20, PofB20, E2(R): 效率相关的指标，考虑检查被预测为有缺陷的模块的开销。衡量开销的指标是源码的行数（SLOC）。
FPA, $E_1$ (R), $E_2$ (R), Prec@k: 效率无关的指标，不考虑对测试开销的检查。其中 $E_1$ (R)和Prec@k检查排名最高的部分结果的性能，而FPA检查整个排行榜的性能。

本文检查的工作

我们在2002年到2017年间的跨项目缺陷预测工作中展开研究，起始年份设置为2002年因为第一篇跨项目缺陷预测工作（下文中的BMW 2002 TSE paper）在2002年发表。我们设定了如下的挑选工作的标准：

工作使用监督学习，研究跨项目缺陷预测
论文用英文写
能够获得全文
如果文章在会议和期刊都发表过则选择期刊的版本
预测场景是分类或排序

上图是我们选择工作的过程：我们从Google Scholar，文献综述以及我们阅读过的文献中选择文献。我们以一种滚雪球的方式收集了引用过BMW 2002 TSE paper的46篇相关文章。然后，我们利用“cross project” + “defect prediction”作为关键字进行搜索，又找到了与这46篇文章相关的13篇文章，然后我们又利用“cross company” + “defect prediction”作为关键字，找到了3篇与上面59篇相关的文章，然后我们又用“cross project” + “fault prediction”作为关键字，找到了1篇相关文章，最后我们利用“cross company” + “fault prediction”作为关键字，没有找到任何新的相关文章。通过以上步骤，我们在Google Scholar上找到了共63篇监督学习的跨项目缺陷预测文章。

在谷歌学术之外，我们从Hosseini等人的综述中找到6篇相关文章。Hosseini等人从ACM，IEEE， ISI Web of Science，Google Scholar和Scopus上找到了46篇CPDP的文章，通过筛选和去重，我们找到了6篇符合标准并且没有被我们发现的文章。此外我们从我们阅读过的文献中又找到3篇不在以上集合中的文章，因此我们的研究共基于72篇CPDP文章。

下表是这些文章的总体框架，对于没篇文章，第二列和第三列分别列出了发表年份和标题。第4列和第6列列出了源项目和目标项目的属性，包括源/目标项目数，以及项目所用的语言。如果项目数和版本数相同我们将不会列出版本数。第4列和第5列的灰色背景表示源和目标项目是不同的项目（？？？）。7到12列是模型解决的问题或挑战，“Yes”表示文章明显考虑到了相关内容，表格为空表示文章没有做这件事。13列到16列表示评估内容，包括训练数据的选择，应用场景，主要性能指标，和测试数据是否可获得。第15列的灰色背景表示研究只以图的形式给出了结果，而没有给出具体数值。第17列表示文章是否使用了模块大小特征作为baseline。最后一列说明文章中的方法是否打得过我们提出的baseline。

表太大了截图截不下自行翻论文.jpg

从表中我们可以得到如下结论：

最早的一篇CPDP工作把CPDP应用在了面向对象的软件项目上，结果显示利用一个项目构建的模型对另一个模型进行预测，分类的结果很差，然而排序的结果很好。
近年来CPDP发展得很好，整体结果显示CPDP取得了与WPDP（项目内缺陷预测）相当甚至更好的效果。
现有的CPDP工作涵盖了许多课题，包括在不同验证集（开源/不开源）上验证CPDP效果，不同开发阶段（设计/实现），不同编程语言（C, C++, C#, Java, JS, Pascal, Perl, Ruby），不同模块层级（change，函数，类，文件），不同缺陷特征（语义，文本，结构化信息）。
结果显示了CPDP过程的不同模块分布的严重不平衡，在关键模块中，“样本过滤”和“迁移分布”是最重要的两个，而“数据私有化”和“数据同质化”是两个最少被涉及的模块。没有一篇工作涉及到了全部模块，绝大部分只涉及了不到3个模块。
在分类工作中，绝大部分工作在完整的开源的目标项目上对CPDP进行评估，只有小部分工作利用一个项目的一部分进行模型的测试。
大部分研究工作给出了模型评估结果的具体数值。
在72篇文章中，只有两篇文章采取了我们所采用的简单模型作为评估baseline。