论文阅读报告：Feature Selection for Multi-label Classification Using Neighborhood Preservation，Zhiling Cai

最新推荐文章于 2022-08-25 10:47:01 发布

lcg_magic

最新推荐文章于 2022-08-25 10:47:01 发布

阅读量585

点赞数 3

分类专栏： Paper Reading 文章标签：机器学习特征选择 GNRPS FNRPS 多标签

本文链接：https://blog.csdn.net/PursueLuo/article/details/111319565

版权

Paper Reading 专栏收录该内容

12 篇文章 2 订阅

订阅专栏

文章目录

1. 论文出处
2. 流程（示意图）
3. 预备知识
- 3.1 相似性保持特征选择（Similarity Preserving Feature Selection）
- 3.2 多标签
4. 论文内容
5. DOI

1. 论文出处

Feature Selection for Multi-label Classification Using Neighborhood Preservation
Zhiling Cai and William Zhu
IEEE/CAA JOURNAL OF AUTOMATICA SINICA
Volumn 5
Number 1
2018

2. 流程（示意图）

在这里插入图片描述
四步：

构建两个样本相似性矩阵，一个是特征子空间下的样本相似性矩阵，另外一个是标签空间下的样本相似性矩阵；
构建关于 $F^I$ 和 $L$ 的表达式；
特征评价准则 NRPS；
设计两种特征选择算法，分别是 FNRPS 和 GNRPS。

3. 预备知识

3.1 相似性保持特征选择（Similarity Preserving Feature Selection）

$SC(f)=\hat{f}^TK \hat{f}$
其中， $\hat{K}$ 是相似度矩阵， $\hat{f}$ 是归一化后的特征（属性）向量。

单标签中， $K$ 定义为
$\begin{aligned} &\min_{\hat{X}} \lVert K'-K \rVert^2_F \\ &\text{s.t. } K' = \hat{X}^T\hat{X} \end{aligned}$
其中， $\hat{X}$ 是从所有特征中选择出来的 $k$ 个特征， $\lVert \cdot \rVert_F$ 是 Frobenius norm。

Frobenius norm 定义为
$\lVert M \rVert_F = \sqrt{\sum_{i=1}^{n} \sum_{j=1}^{m} M_{ij}^2}.$

3.2 多标签

记 –

$d$ 维的特征空间为 $\mathcal{X}=\mathbb{R}^d$ ；
标签集合 $C=\{c_1, \dots, c_m\}$ ；
多标签训练集 $D=\{(x_i, Y_i)\mid 1\leq i \leq n\}$ ；
$x_i \in \mathcal{X}$ 是一个 $d$ 维的特征向量 $[x_{i1},\dots,x_{id}]$ ；
$Y_i \in C$ 是和 $x_i$ 关联的标签集合；
$Y_i$ 是一个 $m$ 维的二值向量 $y_i = [y_{i1},\dots,y_{im}]$ ，其中
$y_{ij} = \begin{cases} 1, & \text{如果 } Y_i \text{ 拥有标签 } c_j;\\ 0, & \text{否则}. \end{cases}$

4. 论文内容

特征选择问题是选择一个特征子集以近似地表示所有特征。

设 $I\subseteq \{1,\dots,m\}$ 是选择出来特征的下标集合。

特征选择后，一个实例 $x\in \mathcal{R}^d$ 可以近似地表示为 $x^I \in \mathbb{R}^{\lvert I \rvert}$ ，其中 $x^I$ 是 $x$ 的一个子向量。

通过训练集 $D$ 和下标集合 $I$ ，构建两个样本相似性矩阵，其中一个基于特征子空间，另外一个基于标签空间。

对于 $\{x^I_1, \dots, x^I_n\}$ ，定义 $F^I=\left[F^I_{ij}\right]_{n\times n}, F^I_{ij}=\langle x^I_i, x^I_j \rangle$ 是基于特征子空间的样本相似性矩阵。
对于 $\{y_1,\dots,y_n\}$ ，定义 $L=\left[L_{ij} \right]_{n\times n}, L_{ij} = \langle y_i, y_j \rangle$ 是基于标签控件的样本相似性矩阵。

如果两个样本之间包含越多的相同标签，则它们应该越相似。
因此，定义相似保持（Similarity Preservation）如下：
$\min_{I} \lVert F^I - L \rVert_F^2.$
上式假设，特征子空间标签子空间中，样本之间的相似性近似相等。

然而，上式没考虑到的是，这两种相似性很可能有不同的范围（different scales）。

因此，对上式进行改进。

思想：

样本相似性矩阵中，两个样本之间的相似性越高，则样本越相近；
样本相似性可以转换成样本邻居关系来表达；

领域保持（Neighborhood Preservation）定义如下：
$\min_{I,a,b} \frac{1}{2} \lVert aF^I + b\bm{1}-L\rVert_F^2$
其中， $a$ 和 $b$ 是两个待解决的变量， $\bm{1}\in \mathbb{R}^{n\times n}$ 是全 1 矩阵。

为了得到特征评价准则，假设 $I$ 是已知的，求解
$\begin{aligned} \argmin_{a,b} & \frac{1}{2} \lVert aF^I + b\bm{1} - L \rVert_F^2 \\ &= \argmin_{a,b} \frac{1}{2} \text{tr} \left[\left(aF^I + b\bm{1} - L\right)^T \left( aF^I + b \bm{1} - L\right)\right] \\ &= \argmin_{a,b} \frac{1}{2}\text{tr}\left(a^2F^IF^I + 2abF^I\bm{1} + b^2\bm{1}^2 - 2aF^IL-2b\bm{1}L + L^2 \right). \end{aligned}$
令 $\mathbb{O} =\frac{1}{2}\lVert aF^I + b\bm{1} - L\rVert_F^2$ ，

通过将其对于 $a$ 的偏导数置为 0，得到
$\frac{d\mathbb{O}}{da} = a\text{tr}\left(F^IF^I\right) + b\text{tr}\left(F^I\bm{1}\right) -\text{tr}\left(F^IL\right) = 0.$

通过将其对于 $b$ 的偏导数置为 0，得到
$\frac{d\mathbb{O}}{db} = a\text{tr}\left( F^I\bm{1}\right) + b \text{tr} \left(\bm{1}^2 \right) - \text{tr}\left(\bm{1} L\right) = 0.$

由上面两个偏导数得到
$\begin{pmatrix} \text{tr}\left(F^IF^I\right) \quad \text{tr}\left(F^I\bm{1}\right) \\ \text{tr}\left(F^I \bm{1} \right) \quad \text{tr}\left( \bm{1}^2\right) \end{pmatrix} \begin{pmatrix} a \\ b \\ \end{pmatrix} = \begin{pmatrix} \text{tr} \left(F^IL \right) \\ \text{tr} \left(L\bm{1} \right) \\ \end{pmatrix}$

为了解决上式的问题，需要额外的信息。

引理 1：柯西不等式
设 $\alpha_1, \dots, \alpha_n, \beta_1, \dots, \beta_n \in \mathbb{R}$ ，有
$\left[\sum_{i=1}^{n} \alpha_i\beta_i\right]^2 \leq \sum_{i=1}^{n}\alpha_i^2\sum_{i=1}^{n}\beta_i^2$
当且仅当 $\beta_i=0$ 或者 $\alpha_i=c\beta_i(i=1,\dots,n \text{ 且 } c\in \mathbb{R})$ 时，取等号。

推论 1
如果 $A$ 和 $B$ 都是对称矩阵，则有
$\left[\text{tr}(AB)\right]^2 \leq \text{tr}(A^2) \text{tr}(B^2)$
其中，当 $B=\bm{0}$ 或者 $A=cB(c\in \mathbb{R})$ 时，取等号。

在实际应用中，样本之间的相似性不可能都相同。

也就是， $F^I \neq c\bm{1}(c \in \mathbb{R})$ ，得到

$\left(\text{tr}\left(F^I\bm{1}\right) \right)^2 \leq \text{tr}\left( F^IF^I\right)\text{tr}\left(\bm{1}^2\right).$

因此，有
$\left \lvert \begin{matrix} \text{tr}\left(F^IF^I \right) \quad \text{tr}\left(F^I\bm{1} \right) \\ \text{tr}\left( F^I \bm{1}\right) \quad \text{tr} \left( \bm{1}^2\right) \end{matrix} \right \rvert \neq 0.$

基于以上的结论，可以得到 $a$ 、 $b$ 的唯一解：
$\frac{\text{tr} \left(F^IL\right) \text{tr} (\bm{11}) - \text{tr} \left(F^I\bm{1}\right)\text{tr}\left(L\bm{1}\right)}{\text{tr}\left(F^IF^I\right) \text{tr}(\bm{11}) - \text{tr}\left(F^I \bm{1} \right) \text{tr} \left( F^I \bm{1} \right)}$

$\frac{\text{tr} \left(F^IF^I\right) \text{tr} (L\bm{1}) - \text{tr} \left(F^I\bm{1}\right)\text{tr}\left(F^IL\right)}{\text{tr}\left(F^IF^I\right) \text{tr}(\bm{11}) - \text{tr}\left(F^I \bm{1} \right) \text{tr} \left( F^I \bm{1} \right)}$

4.1 NRPS

Neighborhood relationship preserving score(NRPS)

对于每个下标集合 $I$ ，计算 NRPS
$\lVert aF^I + b\bm{1} - L \rVert_F^2$
值越小，代表特征子集越重要。

4.2 FNRPS

Feature Ranking Method for Multi-label Feature Selection(FNRPS)

记 $S C (r)$ 是第 $r$ 个特征的领域保持分数（ $r=1,\dots,d$ ， $d$ 是特征的数目）。

令
$SC(r) = NRPS(\{r\}),$
然后选择分数最小的 $k$ 个特征，作为最优的特征子集。

算法伪代码：在这里插入图片描述
其中，矩阵 $\in \mathbb{R}^d$ ， $\text{tr}(PQ)=\sum_{i=1}^{n} \sum_{j=1}^{n} p_{ij} q_{ji}$ 。

4.3 GNRPS

Greedy Method for Multi-label Feature Selection(GNRPS)

采用传统的前向搜索策略，贪婪地选择特征。

首先，初始化 $I=\emptyset$ ， $D$ 中特征的下标集合为 $\{1,\dots,d\}$ 。

基于以下式子，从 $D$ 中逐个添加特征到 $I$ 中：
$\argmin_{r \in D} NRPS(I \cup \{r\})$

算法伪代码如下所示：
在这里插入图片描述

5. DOI

http://www.doi.org/10.1109/JAS.2017.7510781

lcg_magic

关注

3
点赞
踩
4

收藏

觉得还不错? 一键收藏
2
评论
论文阅读报告：Feature Selection for Multi-label Classification Using Neighborhood Preservation，Zhiling Cai

文章目录1. 论文出处2. 预备知识2.1 相似性保持特征选择（Similarity Preserving Feature Selection）2.2 多标签3. 论文内容3.1 NRPS3.2 FNRPS3.3 GNRPS4. DOI1. 论文出处Feature Selection for Multi-label Classification Using Neighborhood PreservationZhiling Cai and William ZhuIEEE/CAA JOURNAL OF
复制链接

扫一扫

专栏目录