基于脑风暴优化的数据分类特征选择
参考文献: Feature selection based on brain storm optimization for data
classification
要点:
将作为增量学习神经网络的模糊ARTMAP(FAM)模型与作为特征选择方法的BSO相结合,生成用于特征选择和优化的混合FAM-BSO模型。首先,使用FAM增量创建多个原型节点,将其作为底层模型学习训练样本,然后,BSO用于搜索和选择能够以最少的特征数量产生高精度的最佳特征子集。
主要贡献:
(1)一种混合FAM-BSO模型,能够最大限度地提高分类精度并最小化特征数量;
(2)使用基准问题和现实问题对FAM-BSO在特征选择和数据分类方面进行综合评估,并将BSO(BSO的一个新应用)的特征选择能力与其他基于EC的算法进行性能比较。
特征选择:
特征选择方法旨在提高分类算法的预测精度和/或减少计算时间;特征选择技术由两部分组成:(i)一种搜索技术,用于找到最佳特征子集;(ii)一种分类器或学习算法,用于评估所选特征子集的有效性。
特征选择技术可分为三类:基于过滤器的方法、基于包装器的方法和基于嵌入式的方法。
(1)过滤器:主要关注数据样本的属性,而不考虑底层的学习方案
(2)包装器:使用分类器或学习算法来评估各种特征子集的有效性,并采用搜索技术来寻找最优的特征子集
(3)嵌入式:在训练过程中考虑特征选择,以减少重新分类不同特征子集的计算时间
FAM:
模糊ARTMAP(FAM)[17]是一种监督神经网络,它将自适应共振理论(ART)[18]在解决稳定性-可塑性困境方面的能力与模糊集理论在处理模糊和不精确人类语言信息方面的能力相结合。FAM是一种增量学习模型,通过确定其现有原型节点和输入样本之间的相似度来进行操作。如果不满足相似性度量,FAM能够在其结构中增量添加一个新原型节点来编码当前学习样本,而不会忘记或损坏先前学习的样本。
BSO:
图解:BSO生成n个随机解并对其进行评估。将解聚类成m组(使用k-均值聚类算法)后,根据其适应度值对其进行排序,并将每个聚类中的最佳解设置为聚类中心。接下来,基于概率p5a,它随机中断集群中心。然后,基于分别基于概率p6biii和P6c随机选择的一个/两个集群中心或解决方案来更新每个解决方案。最后,如果新解决方案的性能优于当前解决方案,则会进行替换。
FAM-BSO模型:
图解:首先将数据集分为三个子集,即学习集、验证集和测试集。使用学习集对FAM进行训练后,根据等式(4)生成n个随机解。接下来,对于每个解决方案,使用公式(5)创建“开放”原型,并使用验证集测量适应度值。为了确定适合度值,FAM-BSO使用公式(A.2)计算每个验证样本的选择函数,然后使用公式(A.5)对获胜的原型节点进行警戒测试。然后,使用k-均值聚类将所有解聚类为m组。在使用公式(1,2,3)更新个体之前,集群中心被破坏。然后,创建“开放”原型,并测量每个更新解决方案的适应度值。如果新解决方案的性能优于当前解决方案,则会进行替换。最后,如果满足终止条件,则使用最佳特征子集使用测试集评估性能
等式(4):
公式(5):
公式(A.2):
公式(A.5):
公式(1,2,3):