科学论文1-软件缺陷预测中基于聚类分析的特征选择方法

ronghuilin

于 2016-10-30 13:58:34 发布

阅读量3.1k

点赞数 2

分类专栏：程序测试软件缺陷文章标签：软件缺陷预测聚类分析特征选择软件缺陷模型构建 10 折交叉验证

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ronghuilin/article/details/52971866

版权

国家科学基地有超级工程：两弹一星、航天发射中心，有国家科学研究院所和企业研发基地，包括山东的高速铁路研发中心，天津、广东广州和江苏无锡的高性能计算中心等。在此创建科学论文阅读中心，主要是计算机、电子系统设计、能源物理、智能机械、绿色生态建筑等。目的是学习国家科研基地，让众多科学前沿的学术论文能为广大程序员所掌握和实践。

第一篇论文是《中国科学.计算科学》2016.10发表的论文

软件缺陷预测中基于聚类分析的特征选择方法。

为了阅读的效能，将论文顺序有所编辑，敬请谅解。

按照论文阅读的顺序掌握论文的内容和可能应用在IT业界的方法。

论文下载在中国科学.信息科学网站，2016 issue 10。

1.论文的创新

1.1 摘要阅读理解

论文摘要

软件缺陷预测通过挖掘软件历史仓库, 构建缺陷预测模型来预测出被测项目内的潜在缺陷程序模块.

但有时候搜集到的缺陷预测数据集中含有的冗余特征和无关特征会影响到缺陷预测模型的性能.

提出一种基于聚类分析的特征选择方法 FECAR. 具体来说, 首先基于特征之间的关联性 (即 FFC), 将已有特征进行聚类分析.

随后基于特征与类标间的相关性 (即 FCR), 对每个簇中的特征从高到低进行排序并选出指定数量的特征.

在实证研究中, 借助对称不确定性 (symmetric uncertainty) 来计算 FFC, 借助信息增益 (information gain)、卡方值 (chi-square) 或 ReliefF 来计算 FCR. 以 Eclipse 和 NASA 数据集等实际项目为评测对象,

重点分析了应用 FECAR 方法后的缺陷预测模型的性能, FECAR 方法选出的特征子集冗余率和比例.

结果验证了 FECAR 方法的有效性.

论文的研究主题

软件缺陷预测模型的构建。

论文的研究方法

（1）目前方法的不足。

传统方法：预测。对挖掘软件历史仓库，以构建缺陷预测模型。

不足：缺陷预测数据的无关特征。

可知论文分类：数据挖掘应用在软件缺陷。关键字：软件缺陷、数据挖掘。

（2）提出新的方法，聚类分析的特征选择方法，命名为FECAR。选择特征的新方法：聚类分析。

*聚类分析特征间的关联，得到多个簇。

*根据特征与类标的相关性，对每个簇中的特征进行排序，得到簇的特征。

*实证分析。对簇中特征的关联性进行调整，借助多个数据挖掘、统计分析的方法。分析模型的性能和特征子集的优度。

数据的实证分析实现了方法的有效性验证。

关键字：聚类分析，特征选择。

1.2 论文创新

论文主题：软件缺陷预测

通过分析软件代码或开发过程, 设计出与软件缺陷相关的度量元 (metrics), 随后通过挖掘软件历史仓库 (software historical repositories) 来创建缺陷预测数据集. 最后基于上述搜集的缺陷预测数据集, 构建缺陷预测模型, 并用于预测出被测项目内的潜在缺陷程序模块.

（1）创建软件开发过程中的软件缺陷度量元（特征），包括软件分析的结果，建立缺陷预测数据集。即：数据挖掘技术中的样本数据集创建过程。

度量元特征存在维度灾难问题。

（2）构建缺陷预测模型

（3）应用在被测项目中，预测潜在程序模块中的缺陷。

（4）在大量特征中辨别异常和无用值，并且提高数据集的有效性，所谓数据选择过程。

最低0.47元/天解锁文章

关注

2
点赞
踩
15

收藏

觉得还不错? 一键收藏
0
评论
科学论文1-软件缺陷预测中基于聚类分析的特征选择方法

对我国一级刊物上的论文进行分析,希望广大程序员掌握学术论文的阅读方法,从中选择对自己工作最有效的方法和理论.
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。