Spectral feature selection可翻译为谱特征选择,之前的特征提取学习中陷入了光谱特征选择翻译的误区。
参考论文为"Spectral feature selection for supervised and unsupervised learning " 作者 为 Zheng Zhao ;Huan Liu
简介
这篇文章提出了一种基于"谱图理论"(spectral graph)的特征选取框架(Laplacian score 和 ReliefF 都属于这个框架的一个特殊情况
)。
这个框架的假设,是本着原数据是大爷的道理,假设一个好的特征应该与原来(训练)数据构成的图有着相似的结构。当然一个特征毕竟是有限的(比如用性别来区分人有没有钱),可是这个特征与训练数据的相关性越大,我们就觉得这个特征越好,越可取。
特征的一致性比较。目标概念由图形结构表示(由椭圆表示的集群)。不同的形状表示特征赋予的不同值。
算法框架
- 构建数据的相似性矩阵S,以及由此基础推出的图的表示G,和W,D,L;
- 计算:和;
- 对排序;
算法推导
先用来表示一个训练集,我们用来表示m个特征,每个特征的对应的数据向量为对于监督学习用来表示每个数据所对应的类。
给定以上数据,可以由不同的规则来定义一个代表数据实例之前关系的实对称矩阵S,Sij表示两个实例之间的关系(距离),下面是两种常用的规则
对于无监督学习,可以用RBF核函数:
对于监督学习(l表示为同一类,nl表示l类中的个数):
所以我们可以通过X得到其无向图G(V,E),对于图G我们定义它的相邻矩阵(adjacency matrix)W,.定义向量
图G的degree matrix D为。
Laplacian matrix:
Normalized Laplacian matrix:
第一步衡量实例之间的相似性解决了,下一步就是求特征的权重(score)
由性质2可以知道laplacian matrix 可以衡量一个向量各个数值之间的加权平方和,可以用来度量一个组数据之间的离散程度。这正是L矩阵有用的地方。
既然这样,因为有Wij,我们直接用就可以算向量f与原数据之间的离散程度,这个式子越小,与元数据差别就越小。但是还要归一化一下由式子(5),所以有
当然这个间断的并不能满足我们日益增长的需求,Smola 和Kondor用傅里叶变换对进行了扩展,
这里是一个单调增函数,是用来惩罚高频分量
比如说,可以有如下形式种特征打分函数
总结
Spectral feature selection 是一个方法框架。