作者:Geppetto
前面我们介绍了特征选择(Feature Selection,FS)与离散化数据的重要性,介绍了PSO在FS中的重要性和一些常用的方法、FS与离散化的背景,介绍了EPSO与PPSO方法。今天我们将介绍与实验相关的细节,包括数据集、用于与我们方法进行比较的基线方法、参数设置、终止标准以及实验的硬件配置。
A. 实验设计
(1) 数据集
为了在高维数据上测试PPSO的性能,我们使用了在http://www.gems-system.org上提供的10个基因表达数据集。表1描述了关于这些数据集的详细信息。
表1.数据集
(2)基线法
为了验证PPSO在离散化和FS中的有效性,我们比较了KNN在PPSO、原始数据集和EPSO转换数据集上的分类性能。我们还将PPSO与两阶段方法(PSO-FS)进行了比较,以确定单阶段方法的性能是否优于两阶段方法。在PSO-FS中,MDL用于在应用PSO进行特征子集选择之前对数据进行离散化。我们还比较了几种传统的两阶段方法,将MDL与LFS进行离散化,采用一致性方法和基于相关的FS (CFS)方法。我们还将PPSO与MChi2进行了比较,MChi2是一种典型的通过离散化处理FS的方法。
(3)参数设置与终止条件
表2描述了三种比较方法PSO-FS、EPSO和PPSO的参数设置。由于搜索空间的大小与