Feature Selection: A Data Perspective [阅读笔记]2:传统数据的特征选择算法——基于相似性的方法

FEATURE SELECTION ON CONVENTIONAL DATA

在本节中,根据所使用的技术,传统数据的特征选择算法广泛地分为

  • 基于相似性的方法(similarity-based)
  • 基于信息理论的方法(information-theoretical-based)
  • 基于稀疏学习的方法(sparse-learning-based)
  • 基于统计的方法(statistical-based methods)
  • 其他方法

Similarity-Based Methods

不同的特征选择算法利用各种类型的标准来定义特征的相关性。基于相似性的方法通过保持数据相似性的能力来评估特征重要性

  • 有监督的特征选择:数据相似性可以从标签信息中导出。
  • 无监督的特征选择:大多数方法利用不同的距离度量来获得数据相似性。

给定具有n个实例和d个特征的数据集\mathrm{X} \in \mathbb{R}^{n \times d},实例之间的成对相似性可以在关联矩阵\mathrm{S} \in \mathbb{R}^{n \times n}中编码。假设我们想要选择k个最相关的特征,一种方法是最大化其效用:\max _{\mathcal{S}} U(\mathcal{S}),其中U(S)表示特征子集S的效用。由于该类算法通常单独评估特征,因此可以将特征子集S上的效用最大化进一步分解为以下形式:

\max _{\mathcal{S}} U(\mathcal{S})=\max _{\mathcal{S}} \sum_{f \in \mathcal{S}} U(f)=\max _{\mathcal{S}} \sum_{\mathbf{f} \in \mathcal{S}} \hat{\mathbf{f}}^{\prime} \hat{\mathrm{S}} \hat{\mathbf{f}}\ \ \ \eqno{(1)}

其中,U(f)是特征f的效用函数,\hat{f}表示原始特征向量f的变换结果(例如缩放、归一化等),\hat{S}是从关联矩阵S获取的一个新的关联矩阵。公式(1)中的最大化问题表明我们将从S中选择特征的子集使其可以很好地保留在\hat{S}中编码的数据流形结构,这个问题通常通过贪婪地选择最大化其个体效用的前k个特征来解决。此类方法在关联矩阵S的设计方式上有所不同。我们随后讨论可以在统一效用最大化框架下重新制定的一些代表性算法。

Laplacian Score

拉普拉斯分数是一种无监督的特征选择算法,可选择能够最好地保留数据流形结构的特征。 它由三个阶段组成:

  1. 构造关联矩阵S,如果x_ix_jp最近邻,S(i, j)=e^{-\frac{\left\|x_{i}-x_{j}\right\|_{2}^{2}}{t}},否则S(i,j)=0
  2. 定义对角矩阵\mathbf{D}(i, i)=\sum_{j=1}^{n} S(i, j)和拉普拉斯矩阵L=D-S
  3. 特征f_i 的拉普拉斯分数计算方法:\text { laplacian }_{-} s \text {core}\left(f_{i}\right)=\frac{\tilde{\mathrm{f}}_{i}^{\prime} \mathrm{L} \tilde{\mathrm{f}}_{i}}{\tilde{\mathrm{f}}_{i}^{\prime} \mathrm{D} \tilde{\mathrm{f}}_{i}}, \text { where } \tilde{\mathrm{f}}_{i}=\mathrm{f}_{i}-\frac{\mathrm{f}_{i}^{\prime} \mathrm{D} 1}{1^{\prime} \mathrm{D} 1}

当拉普拉斯分数单独评估每个特征时,可以通过贪婪地选择具有最小拉普拉斯分数的前k个特征来解决选择k个特征的任务。 每个特征的拉普拉斯分数可以重新表述为:

laplacian_- score(f_{i})=1-\left(\frac{\tilde{\mathfrak{f}}_{i}}{\left\|\mathrm{D}^{\frac{1}{2}} \tilde{\mathrm{f}}_{i}\right\|_{2}}\right)^{\prime}S\left(\frac{\tilde{\mathrm{f}}_{i}}{\left\|\mathrm{D}^{\frac{1}{2}} \tilde{\mathrm{f}}_{i}\right\|_{2}}\right)

其中,\left\|\mathbf{D}^{\frac{1}{2}} \tilde{\mathbf{f}}_{i}\right\|_{2}是特征f_i的标准数据方差,\tilde{\mathbf{f}}_{i} /\left\|\mathbf{D}^{\frac{1}{2} \tilde{\mathbf{f}}_{i}}\right\|_{2}被解释为f_i的归一化特征向量。因此,拉普拉斯分数显然是公式(1)中效用最大化的特例。

SPEC

SPEC是拉普拉斯分数的扩展,适用于有监督无监督的情景。

  • 在无监督场景中,数据相似性由径向基函数核测量。
  • 在有监督场景中,数据相似性定义为\mathrm{S}(i, j)=\left\{\begin{array}{ll}{\frac{1}{n_{l}}} & {\text { if } y_{i}=y_{j}=l} \\ {0} & {\text { otherwise }}\end{array}\right.,其中n_l表示第l类中的数据样本数。在获得关联矩阵S和对角矩阵D后,归一化拉普拉斯矩阵\mathbf{L}_{\text {norm}}=\mathbf{D}^{-\frac{1}{2}}(\mathbf{D}-\mathbf{S}) \mathbf{D}^{-\frac{1}{2}}。SPEC的基本思想类似于拉普拉斯分数:与数据流形结构一致的特征应该为彼此接近的实例分配相似的值。 在SPEC中,特征相关性通过三个不同的标准来衡量:

S P E C_{-} s c o r e 1\left(f_{i}\right)=\hat{\mathbf{f}}_{i}^{\prime} \gamma\left(\mathbf{L}_{n o r m}\right) \hat{\mathbf{f}}_{i}=\sum_{j=1}^{n} \alpha_{j}^{2} \gamma\left(\lambda_{j}\right)

S P E C_{-} s c o r e 2\left(f_{i}\right)=\frac{\hat{f}_{i}^{\prime} \gamma\left(\mathrm{L}_{n o r m}\right) \hat{\mathrm{f}}_{i}}{1-\left(\hat{f}_{i}^{\prime} \xi_{1}\right)^{2}}=\frac{\sum_{j=2}^{n} \alpha_{j}^{2} \gamma\left(\lambda_{j}\right)}{\sum_{j=2}^{n} \alpha_{j}^{2}}

S P E C_{-} s c o r e 3\left(f_{i}\right)=\sum_{j=1}^{m}\left(\gamma(2)-\gamma\left(\lambda_{j}\right)\right) \alpha_{j}^{2}

其中,\hat{\mathbf{f}}_{i}=\mathbf{D}^{\frac{1}{2}} \mathbf{f}_{i} /\left\|\mathbf{D}^{\frac{1}{2}} \mathbf{f}_{i}\right\|_{2}\left(\lambda_{j}, \xi_{j}\right)是标准化拉普拉斯矩阵L_{norm}的第j个本征对;\alpha_{j}=\cos \theta_{j}\theta_{j}\xi_{j}f_i之间的角度;\gamma( .)是一种惩罚本征系统高频成分以降低噪声的递增函数。如果数据无噪声,则可以去除函数\gamma( .)并且\gamma(x)=x。当使用评估标准SPEC_{-} \operatorname{score} 2\left(f_{i}\right)时,SPEC等于拉普拉斯分数。对于SPEC_{-} \text {score } 3\left(f_{i}\right),它使用顶部m个特征对来评估特征f_i的重要性。

通过分别将SPEC_{-} \text {score } 1\left(f_{i}\right)SPEC_{-} \text {score } 2\left(f_{i}\right)SPEC_{-} \text {score } 3\left(f_{i}\right)中的\hat{\mathbf{f}}_{i}设置为\mathbf{f}_{i}\left\|\mathbf{D}^{\frac{1}{2}}\mathbf{f}_{i}\right\|_{2}\left(\mathbf{f}_{i}-\mu \mathbf{1}\right) /\left\|\mathbf{D}^{\frac{1}{2}} \mathbf{f}_{i}\right\|_{2}\mathbf{f}_{i}\left\|\mathbf{D}^{\frac{1}{2}} \mathbf{f}_{i}\right\|_{2}\hat S设置为\mathbf{D}^{\frac{1}{2}} \mathbf{U}(\mathbf{I}-\gamma(\Sigma)) \mathbf{U}^{\prime} \mathbf{D}^{\frac{1}{2}}\mathbf{D}^{\frac{1}{2}} \mathbf{U}(\mathbf{I}-\gamma(\Sigma)) \mathbf{U}^{\prime} \mathbf{D}^{\frac{1}{2}}\mathbf{D}^{\frac{1}{2}} \mathbf{U}_{m}\left(\gamma(2 \mathbf{I})-\gamma\left(\Sigma_{m}\right)\right) \mathbf{U}_{m}^{\prime} \mathbf{D}^{\frac{1}{2}},这三个标准都可以简化为公式(1)中基于统一相似度的特征选择框架。U和Σ是归一化拉普拉斯矩阵L_{norm}的奇异向量和奇异值。

Fisher Score

Fisher Score是一种有监督的特征选择算法。它选择的特征使得同一类中的样本的特征值相似,而来自不同类的样本的特征值不同。 每个特征f_i的费舍尔分数评估方法如下:

\text {fisher }_{-} \operatorname{score}\left(f_{i}\right)=\frac{\sum_{j=1}^{c} n_{j}\left(\mu_{i j}-\mu_{i}\right)^{2}}{\sum_{j=1}^{c} n_{j} \sigma_{i j}^{2}}

其中,n_j\mu_{i}\mu_{i j}\sigma_{i j}^{2}分别表示类j中的样本数,特征f_i的平均值,类j中样本的特征f_i的平均值,类j中样本的特征f_i的方差值。与拉普拉斯分数类似,可以通过贪婪地选择具有最大费舍尔分数的特征来获得前k个特征。

只要关联矩阵\mathrm{S}(i, j)=\left\{\begin{array}{ll}{\frac{1}{n_{l}}} & {\text { if } y_{i}=y_{j}=l} \\ {0} & {\text { otherwise }}\end{array}\right.,费舍尔分数就可以被认为是拉普拉斯分数的一个特例。通过这种方式,Fisher得分和拉普拉斯分数之间的关系是\text {fisher }_{-} \text {score}\left(f_{i}\right)=1-\frac{1}{\text {laplacian}_{-} s \operatorname{core}\left(f_{i}\right)}。因此,费舍尔分数的计算也可以简化为统一效用最大化框架。

Trace Ratio Criterion

跟踪率准则基于相应的得分直接选择全局最优特征子集,该得分由跟踪率范数计算。它构建了两个亲和矩阵S_wS_b,以表征类内和类间的数据相似性。
假定\mathbf{W}=\left[\mathbf{w}_{i_{1}}, \mathbf{w}_{i_{2}}, \ldots, \mathbf{w}_{i_{k}}\right] \in \mathbb{R}^{d \times k}是选择指标矩阵,使得只有w_{i_j}中的第i_j个条目是1,而所有其他条目都是0。基于此,S中所选择的k个特征的跟踪比分数是:

\operatorname{trace}_{-} \operatorname{ratio}(\mathcal{S})=\frac{\operatorname{tr}\left(\mathbf{W}^{\prime} \mathbf{X}^{\prime} \mathbf{L}_{b} \mathbf{X} \mathbf{W}\right)}{\operatorname{tr}\left(\mathbf{W}^{\prime} \mathbf{X}^{\prime} \mathbf{L}_{w} \mathbf{X} \mathbf{W}\right)}

其中,L_bL_w分别是S_bS_w的拉普拉斯矩阵。其基本思想是最大化来自同一类的实例的数据相似性,同时最小化来自不同类的实例的数据相似性。 然而,跟踪率问题难以解决,因为它没有封闭形式的解决方案。 因此,跟踪率问题通常通过最大化\operatorname{tr}\left[\left(\mathrm{W}^{\prime} \mathrm{X}^{\prime} \mathrm{L}_{w} \mathrm{XW}\right)^{-1}\left(\mathrm{W}^{\prime} \mathrm{X}^{\prime} \mathrm{L}_{b} \mathrm{X} \mathrm{W}\right)\right]转换为更容易处理的格式,称为比率跟踪问题。作为一种替代方案,Wang等提出了一种称为ITR的迭代算法来直接解决跟踪比问题,后来应用于跟踪率特征选择。

不同的S_bS_w导致不同的特征选择算法,例如批处理模式拉普拉斯分数和批处理模式费舍尔分数。例如,在批处理模式费舍尔分数中,类内数据相似性和类间数据相似性分别是\mathrm{S}_{w}(i, j)=\left\{\begin{array}{ll}{1 / n_{l}} & {\text { if } y_{i}=y_{j}=l} \\ {0} & {\text { otherwise }}\end{array}\right.S_b(i,j)=\left\{\begin{array}{l}{1 / n-1 / n_{l} \text { if } y_{i}=y_{j}=l} \\ {1 / n}\text { otherwise }\end {array}\right.。因此,最大化跟踪率准则等价于最大化\frac{\sum_{s=1}^{k} f_{i_{s}}^{\prime} S_{w} f_{i_{s}}}{\sum_{s=1}^{k} f_{i_{s}}^{\prime} f_{i_{s}}}=\frac{X_{S}^{\prime} S_{w} X_{S}}{X_{S}^{\prime} X_{S}}。由于\mathrm{X}_{\mathcal{S}}^{\prime} \mathrm{X}_{\mathcal{S}}是常数,因此可以通过设\hat{\mathbf{f}}=\mathbf{f} /\|\mathbf{f}\|_{2}\hat{S}=S_w进一步简化为统一的基于相似度的特征选择框架。

 

未完待续。。。。

  • 3
    点赞
  • 28
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值