FEATURE SELECTION ON CONVENTIONAL DATA
在本节中,根据所使用的技术,传统数据的特征选择算法广泛地分为
- 基于相似性的方法(similarity-based)
- 基于信息理论的方法(information-theoretical-based)
- 基于稀疏学习的方法(sparse-learning-based)
- 基于统计的方法(statistical-based methods)
- 其他方法
Similarity-Based Methods
不同的特征选择算法利用各种类型的标准来定义特征的相关性。基于相似性的方法通过保持数据相似性的能力来评估特征重要性。
- 有监督的特征选择:数据相似性可以从标签信息中导出。
- 无监督的特征选择:大多数方法利用不同的距离度量来获得数据相似性。
给定具有个实例和个特征的数据集,实例之间的成对相似性可以在关联矩阵中编码。假设我们想要选择个最相关的特征,一种方法是最大化其效用:,其中表示特征子集的效用。由于该类算法通常单独评估特征,因此可以将特征子集上的效用最大化进一步分解为以下形式:
其中,是特征的效用函数,表示原始特征向量的变换结果(例如缩放、归一化等),是从关联矩阵获取的一个新的关联矩阵。公式(1)中的最大化问题表明我们将从中选择特征的子集使其可以很好地保留在中编码的数据流形结构,这个问题通常通过贪婪地选择最大化其个体效用的前个特征来解决。此类方法在关联矩阵的设计方式上有所不同。我们随后讨论可以在统一效用最大化框架下重新制定的一些代表性算法。
Laplacian Score
拉普拉斯分数是一种无监督的特征选择算法,可选择能够最好地保留数据流形结构的特征。 它由三个阶段组成:
- 构造关联矩阵,如果是的最近邻,,否则
- 定义对角矩阵和拉普拉斯矩阵
- 特征 的拉普拉斯分数计算方法:
当拉普拉斯分数单独评估每个特征时,可以通过贪婪地选择具有最小拉普拉斯分数的前个特征来解决选择个特征的任务。 每个特征的拉普拉斯分数可以重新表述为:
其中,是特征的标准数据方差,被解释为的归一化特征向量。因此,拉普拉斯分数显然是公式(1)中效用最大化的特例。
SPEC
SPEC是拉普拉斯分数的扩展,适用于有监督和无监督的情景。
- 在无监督场景中,数据相似性由径向基函数核测量。
- 在有监督场景中,数据相似性定义为,其中表示第类中的数据样本数。在获得关联矩阵和对角矩阵后,归一化拉普拉斯矩阵。SPEC的基本思想类似于拉普拉斯分数:与数据流形结构一致的特征应该为彼此接近的实例分配相似的值。 在SPEC中,特征相关性通过三个不同的标准来衡量:
其中,;是标准化拉普拉斯矩阵的第个本征对;,是和之间的角度;是一种惩罚本征系统高频成分以降低噪声的递增函数。如果数据无噪声,则可以去除函数并且。当使用评估标准时,SPEC等于拉普拉斯分数。对于,它使用顶部个特征对来评估特征的重要性。
通过分别将,,中的设置为,,,设置为,,,这三个标准都可以简化为公式(1)中基于统一相似度的特征选择框架。U和Σ是归一化拉普拉斯矩阵的奇异向量和奇异值。
Fisher Score
Fisher Score是一种有监督的特征选择算法。它选择的特征使得同一类中的样本的特征值相似,而来自不同类的样本的特征值不同。 每个特征的费舍尔分数评估方法如下:
其中,,,,分别表示类中的样本数,特征的平均值,类中样本的特征的平均值,类中样本的特征的方差值。与拉普拉斯分数类似,可以通过贪婪地选择具有最大费舍尔分数的特征来获得前k个特征。
只要关联矩阵,费舍尔分数就可以被认为是拉普拉斯分数的一个特例。通过这种方式,Fisher得分和拉普拉斯分数之间的关系是。因此,费舍尔分数的计算也可以简化为统一效用最大化框架。
Trace Ratio Criterion
跟踪率准则基于相应的得分直接选择全局最优特征子集,该得分由跟踪率范数计算。它构建了两个亲和矩阵和,以表征类内和类间的数据相似性。
假定是选择指标矩阵,使得只有中的第个条目是1,而所有其他条目都是0。基于此,中所选择的个特征的跟踪比分数是:
其中,和分别是和的拉普拉斯矩阵。其基本思想是最大化来自同一类的实例的数据相似性,同时最小化来自不同类的实例的数据相似性。 然而,跟踪率问题难以解决,因为它没有封闭形式的解决方案。 因此,跟踪率问题通常通过最大化转换为更容易处理的格式,称为比率跟踪问题。作为一种替代方案,Wang等提出了一种称为ITR的迭代算法来直接解决跟踪比问题,后来应用于跟踪率特征选择。
不同的和导致不同的特征选择算法,例如批处理模式拉普拉斯分数和批处理模式费舍尔分数。例如,在批处理模式费舍尔分数中,类内数据相似性和类间数据相似性分别是和。因此,最大化跟踪率准则等价于最大化。由于是常数,因此可以通过设和进一步简化为统一的基于相似度的特征选择框架。
未完待续。。。。