Feature Selection: A Data Perspective [阅读笔记]2：传统数据的特征选择算法——基于相似性的方法

最新推荐文章于 2023-01-21 15:23:29 发布

RoderickLi

最新推荐文章于 2023-01-21 15:23:29 发布

阅读量1.4k

点赞数 3

分类专栏：阅读笔记文章标签：特征选择

本文链接：https://blog.csdn.net/weixin_34088916/article/details/100560295

版权

阅读笔记专栏收录该内容

2 篇文章 0 订阅

订阅专栏

FEATURE SELECTION ON CONVENTIONAL DATA

在本节中，根据所使用的技术，传统数据的特征选择算法广泛地分为

基于相似性的方法（similarity-based）
基于信息理论的方法(information-theoretical-based)
基于稀疏学习的方法(sparse-learning-based)
基于统计的方法(statistical-based methods)
其他方法

Similarity-Based Methods

不同的特征选择算法利用各种类型的标准来定义特征的相关性。基于相似性的方法通过保持数据相似性的能力来评估特征重要性。

有监督的特征选择：数据相似性可以从标签信息中导出。
无监督的特征选择：大多数方法利用不同的距离度量来获得数据相似性。

给定具有 $n$ 个实例和 $d$ 个特征的数据集 $\mathrm{X} \in \mathbb{R}^{n \times d}$ ，实例之间的成对相似性可以在关联矩阵 $\mathrm{S} \in \mathbb{R}^{n \times n}$ 中编码。假设我们想要选择 $k$ 个最相关的特征，一种方法是最大化其效用： $\max _{\mathcal{S}} U(\mathcal{S})$ ，其中 $U(S)$ 表示特征子集 $S$ 的效用。由于该类算法通常单独评估特征，因此可以将特征子集 $S$ 上的效用最大化进一步分解为以下形式：

$\max _{\mathcal{S}} U(\mathcal{S})=\max _{\mathcal{S}} \sum_{f \in \mathcal{S}} U(f)=\max _{\mathcal{S}} \sum_{\mathbf{f} \in \mathcal{S}} \hat{\mathbf{f}}^{\prime} \hat{\mathrm{S}} \hat{\mathbf{f}}\ \ \ \eqno{(1)}$

其中， $U(f)$ 是特征 $f$ 的效用函数， $\hat{f}$ 表示原始特征向量 $f$ 的变换结果（例如缩放、归一化等）， $\hat{S}$ 是从关联矩阵 $S$ 获取的一个新的关联矩阵。公式（1）中的最大化问题表明我们将从 $S$ 中选择特征的子集使其可以很好地保留在 $\hat{S}$ 中编码的数据流形结构，这个问题通常通过贪婪地选择最大化其个体效用的前 $k$ 个特征来解决。此类方法在关联矩阵 $S$ 的设计方式上有所不同。我们随后讨论可以在统一效用最大化框架下重新制定的一些代表性算法。

Laplacian Score

拉普拉斯分数是一种无监督的特征选择算法，可选择能够最好地保留数据流形结构的特征。它由三个阶段组成：

构造关联矩阵 $S$ ，如果 $x_i$ 是 $x_j$ 的 $p$ 最近邻， $S(i, j)=e^{-\frac{\left\|x_{i}-x_{j}\right\|_{2}^{2}}{t}}$ ，否则 $S(i,j)=0$
定义对角矩阵 $\mathbf{D}(i, i)=\sum_{j=1}^{n} S(i, j)$ 和拉普拉斯矩阵 $L=D-S$
特征 $f_i$ 的拉普拉斯分数计算方法： $\text { laplacian }_{-} s \text {core}\left(f_{i}\right)=\frac{\tilde{\mathrm{f}}_{i}^{\prime} \mathrm{L} \tilde{\mathrm{f}}_{i}}{\tilde{\mathrm{f}}_{i}^{\prime} \mathrm{D} \tilde{\mathrm{f}}_{i}}, \text { where } \tilde{\mathrm{f}}_{i}=\mathrm{f}_{i}-\frac{\mathrm{f}_{i}^{\prime} \mathrm{D} 1}{1^{\prime} \mathrm{D} 1}$

当拉普拉斯分数单独评估每个特征时，可以通过贪婪地选择具有最小拉普拉斯分数的前 $k$ 个特征来解决选择 $k$ 个特征的任务。每个特征的拉普拉斯分数可以重新表述为:

$laplacian_- score(f_{i})=1-\left(\frac{\tilde{\mathfrak{f}}_{i}}{\left\|\mathrm{D}^{\frac{1}{2}} \tilde{\mathrm{f}}_{i}\right\|_{2}}\right)^{\prime}S\left(\frac{\tilde{\mathrm{f}}_{i}}{\left\|\mathrm{D}^{\frac{1}{2}} \tilde{\mathrm{f}}_{i}\right\|_{2}}\right)$

其中， $\left\|\mathbf{D}^{\frac{1}{2}} \tilde{\mathbf{f}}_{i}\right\|_{2}$ 是特征 $f_i$ 的标准数据方差， $\tilde{\mathbf{f}}_{i} /\left\|\mathbf{D}^{\frac{1}{2} \tilde{\mathbf{f}}_{i}}\right\|_{2}$ 被解释为 $f_i$ 的归一化特征向量。因此，拉普拉斯分数显然是公式（1）中效用最大化的特例。

SPEC

SPEC是拉普拉斯分数的扩展，适用于有监督和无监督的情景。

在无监督场景中，数据相似性由径向基函数核测量。
在有监督场景中，数据相似性定义为 $\mathrm{S}(i, j)=\left\{\begin{array}{ll}{\frac{1}{n_{l}}} & {\text { if } y_{i}=y_{j}=l} \\ {0} & {\text { otherwise }}\end{array}\right.$ ，其中 $n_l$ 表示第 $l$ 类中的数据样本数。在获得关联矩阵 $S$ 和对角矩阵 $D$ 后，归一化拉普拉斯矩阵 $\mathbf{L}_{\text {norm}}=\mathbf{D}^{-\frac{1}{2}}(\mathbf{D}-\mathbf{S}) \mathbf{D}^{-\frac{1}{2}}$ 。SPEC的基本思想类似于拉普拉斯分数：与数据流形结构一致的特征应该为彼此接近的实例分配相似的值。在SPEC中，特征相关性通过三个不同的标准来衡量：

$S P E C_{-} s c o r e 1\left(f_{i}\right)=\hat{\mathbf{f}}_{i}^{\prime} \gamma\left(\mathbf{L}_{n o r m}\right) \hat{\mathbf{f}}_{i}=\sum_{j=1}^{n} \alpha_{j}^{2} \gamma\left(\lambda_{j}\right)$

$S P E C_{-} s c o r e 2\left(f_{i}\right)=\frac{\hat{f}_{i}^{\prime} \gamma\left(\mathrm{L}_{n o r m}\right) \hat{\mathrm{f}}_{i}}{1-\left(\hat{f}_{i}^{\prime} \xi_{1}\right)^{2}}=\frac{\sum_{j=2}^{n} \alpha_{j}^{2} \gamma\left(\lambda_{j}\right)}{\sum_{j=2}^{n} \alpha_{j}^{2}}$

$S P E C_{-} s c o r e 3\left(f_{i}\right)=\sum_{j=1}^{m}\left(\gamma(2)-\gamma\left(\lambda_{j}\right)\right) \alpha_{j}^{2}$

其中， $\hat{\mathbf{f}}_{i}=\mathbf{D}^{\frac{1}{2}} \mathbf{f}_{i} /\left\|\mathbf{D}^{\frac{1}{2}} \mathbf{f}_{i}\right\|_{2}$ ； $\left(\lambda_{j}, \xi_{j}\right)$ 是标准化拉普拉斯矩阵 $L_{norm}$ 的第 $j$ 个本征对； $\alpha_{j}=\cos \theta_{j}$ ， $\theta_{j}$ 是 $\xi_{j}$ 和 $f_i$ 之间的角度； $\gamma( .)$ 是一种惩罚本征系统高频成分以降低噪声的递增函数。如果数据无噪声，则可以去除函数 $\gamma( .)$ 并且 $\gamma(x)=x$ 。当使用评估标准 $SPEC_{-} \operatorname{score} 2\left(f_{i}\right)$ 时，SPEC等于拉普拉斯分数。对于 $SPEC_{-} \text {score } 3\left(f_{i}\right)$ ，它使用顶部 $m$ 个特征对来评估特征 $f_i$ 的重要性。

通过分别将 $SPEC_{-} \text {score } 1\left(f_{i}\right)$ ， $SPEC_{-} \text {score } 2\left(f_{i}\right)$ ， $SPEC_{-} \text {score } 3\left(f_{i}\right)$ 中的 $\hat{\mathbf{f}}_{i}$ 设置为 $\mathbf{f}_{i}\left\|\mathbf{D}^{\frac{1}{2}}\mathbf{f}_{i}\right\|_{2}$ ， $\left(\mathbf{f}_{i}-\mu \mathbf{1}\right) /\left\|\mathbf{D}^{\frac{1}{2}} \mathbf{f}_{i}\right\|_{2}$ ， $\mathbf{f}_{i}\left\|\mathbf{D}^{\frac{1}{2}} \mathbf{f}_{i}\right\|_{2}$ ， $\hat S$ 设置为 $\mathbf{D}^{\frac{1}{2}} \mathbf{U}(\mathbf{I}-\gamma(\Sigma)) \mathbf{U}^{\prime} \mathbf{D}^{\frac{1}{2}}$ ， $\mathbf{D}^{\frac{1}{2}} \mathbf{U}(\mathbf{I}-\gamma(\Sigma)) \mathbf{U}^{\prime} \mathbf{D}^{\frac{1}{2}}$ ， $\mathbf{D}^{\frac{1}{2}} \mathbf{U}_{m}\left(\gamma(2 \mathbf{I})-\gamma\left(\Sigma_{m}\right)\right) \mathbf{U}_{m}^{\prime} \mathbf{D}^{\frac{1}{2}}$ ，这三个标准都可以简化为公式（1）中基于统一相似度的特征选择框架。U和Σ是归一化拉普拉斯矩阵 $L_{norm}$ 的奇异向量和奇异值。

Fisher Score

Fisher Score是一种有监督的特征选择算法。它选择的特征使得同一类中的样本的特征值相似，而来自不同类的样本的特征值不同。每个特征 $f_i$ 的费舍尔分数评估方法如下：

$\text {fisher }_{-} \operatorname{score}\left(f_{i}\right)=\frac{\sum_{j=1}^{c} n_{j}\left(\mu_{i j}-\mu_{i}\right)^{2}}{\sum_{j=1}^{c} n_{j} \sigma_{i j}^{2}}$

其中， $n_j$ ， $\mu_{i}$ ， $\mu_{i j}$ ， $\sigma_{i j}^{2}$ 分别表示类 $j$ 中的样本数，特征 $f_i$ 的平均值，类 $j$ 中样本的特征 $f_i$ 的平均值，类 $j$ 中样本的特征 $f_i$ 的方差值。与拉普拉斯分数类似，可以通过贪婪地选择具有最大费舍尔分数的特征来获得前k个特征。

只要关联矩阵 $\mathrm{S}(i, j)=\left\{\begin{array}{ll}{\frac{1}{n_{l}}} & {\text { if } y_{i}=y_{j}=l} \\ {0} & {\text { otherwise }}\end{array}\right.$ ，费舍尔分数就可以被认为是拉普拉斯分数的一个特例。通过这种方式，Fisher得分和拉普拉斯分数之间的关系是 $\text {fisher }_{-} \text {score}\left(f_{i}\right)=1-\frac{1}{\text {laplacian}_{-} s \operatorname{core}\left(f_{i}\right)}$ 。因此，费舍尔分数的计算也可以简化为统一效用最大化框架。

Trace Ratio Criterion

跟踪率准则基于相应的得分直接选择全局最优特征子集，该得分由跟踪率范数计算。它构建了两个亲和矩阵 $S_w$ 和 $S_b$ ，以表征类内和类间的数据相似性。
假定 $\mathbf{W}=\left[\mathbf{w}_{i_{1}}, \mathbf{w}_{i_{2}}, \ldots, \mathbf{w}_{i_{k}}\right] \in \mathbb{R}^{d \times k}$ 是选择指标矩阵，使得只有 $w_{i_j}$ 中的第 $i_j$ 个条目是1，而所有其他条目都是0。基于此， $S$ 中所选择的 $k$ 个特征的跟踪比分数是：

$\operatorname{trace}_{-} \operatorname{ratio}(\mathcal{S})=\frac{\operatorname{tr}\left(\mathbf{W}^{\prime} \mathbf{X}^{\prime} \mathbf{L}_{b} \mathbf{X} \mathbf{W}\right)}{\operatorname{tr}\left(\mathbf{W}^{\prime} \mathbf{X}^{\prime} \mathbf{L}_{w} \mathbf{X} \mathbf{W}\right)}$

其中， $L_b$ 和 $L_w$ 分别是 $S_b$ 和 $S_w$ 的拉普拉斯矩阵。其基本思想是最大化来自同一类的实例的数据相似性，同时最小化来自不同类的实例的数据相似性。然而，跟踪率问题难以解决，因为它没有封闭形式的解决方案。因此，跟踪率问题通常通过最大化 $\operatorname{tr}\left[\left(\mathrm{W}^{\prime} \mathrm{X}^{\prime} \mathrm{L}_{w} \mathrm{XW}\right)^{-1}\left(\mathrm{W}^{\prime} \mathrm{X}^{\prime} \mathrm{L}_{b} \mathrm{X} \mathrm{W}\right)\right]$ 转换为更容易处理的格式，称为比率跟踪问题。作为一种替代方案，Wang等提出了一种称为ITR的迭代算法来直接解决跟踪比问题，后来应用于跟踪率特征选择。

不同的 $S_b$ 和 $S_w$ 导致不同的特征选择算法，例如批处理模式拉普拉斯分数和批处理模式费舍尔分数。例如，在批处理模式费舍尔分数中，类内数据相似性和类间数据相似性分别是 $\mathrm{S}_{w}(i, j)=\left\{\begin{array}{ll}{1 / n_{l}} & {\text { if } y_{i}=y_{j}=l} \\ {0} & {\text { otherwise }}\end{array}\right.$ 和 $S_b(i,j)=\left\{\begin{array}{l}{1 / n-1 / n_{l} \text { if } y_{i}=y_{j}=l} \\ {1 / n}\text { otherwise }\end {array}\right.$ 。因此，最大化跟踪率准则等价于最大化 $\frac{\sum_{s=1}^{k} f_{i_{s}}^{\prime} S_{w} f_{i_{s}}}{\sum_{s=1}^{k} f_{i_{s}}^{\prime} f_{i_{s}}}=\frac{X_{S}^{\prime} S_{w} X_{S}}{X_{S}^{\prime} X_{S}}$ 。由于 $\mathrm{X}_{\mathcal{S}}^{\prime} \mathrm{X}_{\mathcal{S}}$ 是常数，因此可以通过设 $\hat{\mathbf{f}}=\mathbf{f} /\|\mathbf{f}\|_{2}$ 和 $\hat{S}=S_w$ 进一步简化为统一的基于相似度的特征选择框架。

未完待续。。。。

RoderickLi

关注

3
点赞
踩
28

收藏

觉得还不错? 一键收藏
0
评论
Feature Selection: A Data Perspective [阅读笔记]2：传统数据的特征选择算法——基于相似性的方法

FEATURE SELECTION ON CONVENTIONAL DATA在本节中，根据所使用的技术，传统数据的特征选择算法广泛地分为基于相似性的方法（similarity-based）基于信息理论的方法(information-theoretical-based) 基于稀疏学习的方法(sparse-learning-based) 基于统计的方法(statistical-base...
复制链接

扫一扫