[机器学习]特征选择与稀疏学习

最新推荐文章于 2023-06-19 20:16:30 发布

CristianoJason

最新推荐文章于 2023-06-19 20:16:30 发布

阅读量1k

点赞数 1

分类专栏：模式识别与机器学习文章标签：机器学习特征选择稀疏学习

本文链接：https://blog.csdn.net/CristianoJason/article/details/79057951

版权

模式识别与机器学习专栏收录该内容

12 篇文章 0 订阅

订阅专栏

本文档记录了《机器学习》第 11 章特征选择与稀疏学习相关内容

子集搜索与评价

为什么要进行特征选择

属性过多会导致维数灾难，与降维的动机类似
去除不相关特征常常可以降低学习任务的难度

特征分类

相关特征
无关特征
冗余特征

特征选择的过程

特征过少->数据重叠，无法区分。

特征过多->同类样本变远、变稀疏了，不易区分。

与决策树比较相似，实际上决策树也可以用作特征选择。

子集搜索

前向搜索：特征子集的特征数从少到多进行扩充
后向搜索：从完整特征集开始，每次尝试去掉某个特征
双向搜索：每一轮逐渐增加选定特征，它们在后续轮中将不会被去除（前向），并且减少无关特征（后向）

子集评价

$D$ ：数据集
$p_i$ ：数据集中第 $i$ 类样本所占的比例
$A$ ：属性子集，可根据其取值将数据集划分为 $V$ 个子集 $\{D^1,D^2,...,D^V\}$
信息熵：

$Ent (D) = - \sum k = 1 |  | p k log 2 p k$ $\text{Ent}(D)=-\sum_{k=1}^{|\mathcal{Y}|}p_k\log_2p_k$
属性子集 $A$ 的信息增益：

$Gain (A) = Ent (D) - \sum v = 1 V | D v | | D | Ent (D v)$ $\text{Gain}(A)=\text{Ent}(D)-\sum_{v=1}^{V}\frac{|D^v|}{|D|}\text{Ent}(D^v)$

信息增益越小，说明属性子集 $A$ 的代表性越好。

过滤式（Filter）特征选择

先对数据集进行特征选择，再训练学习器，且特征选择与后续学习器无关，即学习器的性能即为对特征子集的评价。

特点：训练快速

Relief

主要思想：设计一个向量（“相关统计量”）来度量特征的重要性，每个分量对应一个初始特征，特征子集的重要性由子集中每个特征对应的分量之和决定。
- 通过设定阈值 $\tau$ 来过滤相关分量，只保留满足阈值的分量对应的特征。
- 设定希望保留的特征个数 $k$ 来过滤。
确定相关统计分量
- 猜中近邻 $x_{i,nh}$ ： $x_i$ 同类中最相近的样本
- 猜错近邻 $x_{i,nm}$ ： $x_i$ 异类中最相近的样本
- 属性 $j$ 的分量： $\delta^j$ 越大，属性 $j$ 的分类能力越强
  
  $δ j = \sum i - diff (x j i, x j i, n h) 2 + diff (x j i, x j i, n m) 2$ $\delta^j=\sum_i -\text{diff}(x_i^j,x_{i,nh}^j)^2+\text{diff}(x_i^j,x_{i,nm}^j)^2$
Relief-F

二分类 Relief 在多分类任务上的变形

δj=∑i−diff(xji,xji,nh)2+∑l≠k(pl×diff(xji,xji,l,nm)2)

其中 $x_i$ 的类别为 $k$ ， $p_l$ 表示第 $l$ 类样本所占的比例， $x_{i,l,nm}$ 表示第 $l$ 类中最近邻样本。

包裹式（Wrapper）特征选择

给定学习器，选择最有利于该学习器性能的特征子集，即根据目标学习器的性能选择特征子集。
* 特点：计算开销大

随机化方法
- 拉斯维加斯：在有时间要求的情况下，要么给出满足要求的解，要么不能给出解。
- 蒙特卡罗：一定会给出解，但并不一定能给出满足要求的解。
Las Vegas Wrapper

使用随机策略进行子集搜索，每次随机生成一个特征子集之后都要对学习器进行训练。
* 如果学习器的学习误差减小，则选用当前特征子集。
* 如果学习器的学习误差不变，但是特征子集的大小比之前最优结果的特征子集小，则选用当前特征子集。

嵌入式（Embedding）特征选择

特征选择过程与学习器训练过程融为一体，即学习器训练过程中能自动的进行特征选择。

正则化
- LASSO：L1 范数正则化，等值线 ∑di=1|wi|=Const
  - 岭回归：L2 范数正则化，等值线 $\sum_{i=1}^d|w_i|^2=\text{Const}$
  - 近端梯度下降 PGD
    - 目的：求解 L1 正则化问题。
    - 优化目标： $\min_xf(x)+\lambda\|x\|_1$
    - 寻找最小值：
      
      $f (x) = ∥ \nabla f ( x ' ) - \nabla f ( x ) ∥ 2 2 ∥ x ' - x ∥ 2 2 \leq L$ $f(x)=\frac{\|\nabla f(x')-\nabla f(x)\|_2^2}{\|x'-x\|_2^2}\leq L$
      
      二阶泰勒展开式：
      
      $f ̂ (x) ≃ f (x k) + ⟨ \nabla f (x k), x - x k ⟩ + L 2 ∥ x - x k ∥ 22$ $\hat{f}(x)\simeq f(x_k)+\langle\nabla f(x_k),x-x_k\rangle+\frac{L}{2}\|x-x_k\|_2^2$
      
      其中 $x_k$ 和 $\nabla f(x_k)$ 都是已知常量，通过拆分和配分可以得到：
      
      $f ̂ (x) = L 2 ∥ x - (x k - 1 L \nabla f (x k)) ∥ 22$ $\hat{f}(x)=\frac{L}{2}\|x-(x_k-\frac{1}{L}\nabla f(x_k))\|_2^2$
      
      显然当 $x=x_k-\frac{1}{L}\nabla f(x_k)$ 时有最小值，进而优化目标可以改变为：
      
      $x k + 1 = arg min x L 2 ∥ x - (x k - 1 L \nabla f (x k)) ∥ 22 + λ ∥ x ∥ 1$ $x_{k+1}=\arg \min_x\frac{L}{2}\|x-(x_k-\frac{1}{L}\nabla f(x_k))\|_2^2+\lambda\|x\|_1$
    稀疏表示和字典学习
    
    稀疏表示
    - 学习难度降低
    - 计算和存储开销降低
    - 模型可解释性提高
    字典学习
    
    简单形式
    - 字典词汇量： $k$
    - 字典矩阵： $\mathbf{B}\in\mathbb{R}^{d\times k}$
    - 样本： $x_i\in\mathbb{R}^d$
    - 样本的稀疏表示： $\alpha_i\in\mathbb{R}^k$
    - 目标函数：
      
      $min B, α i \sum i = 1 m ∥ x i - B α i ∥ 22 + λ \sum i = 1 m ∥ α i ∥ 1$ $\min_{\mathbf{B},\alpha_i}\sum_{i=1}^m\|x_i-\mathbf{B}\alpha_i\|_2^2+\lambda\sum_{i=1}^m\|\alpha_i\|_1$
    变量交替优化求解
    1. 固定字典 $\mathbf{B}$ ，为每个样本 $x_i$ 更新 $\alpha_i$ ：
      
      $min α i ∥ x i - B α i ∥ 22 + λ ∥ α i ∥ 1$ $\min_{\alpha_i}\|x_i-\mathbf{B}\alpha_i\|_2^2+\lambda\|\alpha_i\|_1$
    2. 通过 $\alpha_i$ 更新 $\mathbf{B}$ ：
      
      $min B ∥ X - B A ∥ 2 F = min b i ∥ X - \sum j = 1 k b j α j ∥ 2 F = min b i ∥ X - \sum j \neq i b j α j - b i α i ∥ 2 F$ $\min_{\mathbf{B}}\|\mathbf{X-BA}\|_F^2=\min_{b_i}\|\mathbf{X}-\sum_{j=1}^k b_j \alpha^j\|_F^2=\min_{b_i}\|\mathbf{X}-\sum_{j\neq i} b_j \alpha^j-b_i\alpha^i\|_F^2$
      
      其中 $\mathbf{E}_i=\mathbf{X}-\sum_{j\neq i} b_j \alpha^j$ 在仅对第 $i$ 列更新时是固定的，具体更新过程： $\alpha^i$ 仅保留非零元素， $\mathbf{E}_i$ 仅保留 $b_i$ 和 $\alpha^i$ 的非零元素的乘积项，然后对 $\mathbf{E}_i$ 进行奇异值分解得到最大奇异值对应的正交向量。也就是先将 $b_i\alpha^i$ 中 $\alpha_i$ 为 0 的维度去掉。
    压缩感知
    
    两个阶段：
    - 感知测量：从原本样本到稀疏表示
    - 重构恢复：基于稀疏性从少量观测中恢复原信号
    限定等距性
    
    从采样信号中重构出原始信号。
    - 重要符号
      - 原始信号： $x\in\mathbb{R}^m$
      - 采样信号： $y\in\mathbb{R}^n, n\ll m$
      - 测量矩阵： $\Phi\in\mathbb{R}^{n\times m},y=\Phi x$
      - 线性变换矩阵（稀疏基）： $\Psi\in\mathbb{R}^{m\times m},x=\Psi s\rightarrow y=\Phi\Psi s =As$ ，新目标：根据 $y$ 恢复 $s$
    - 限定等距性：存在常数 $\delta_k\in(0,1)$ ，对任意 $s$ 和 $A$ 的所有子矩阵 $A_k\in\mathbb{R}^{n\times k}$ ，有
      
      $(1 - δ k) ∥ s ∥ 22 \leq ∥ A k s ∥ 22 \leq (1 + δ k) ∥ s ∥ 22$ $(1-\delta_k)\|s\|_2^2\leq\|A_ks\|_2^2\leq(1+\delta_k)\|s\|_2^2$
      
      通过 $\min_s\|s\|_0$ 或 $\min_s\|s\|_1$ 从 $y$ 中恢复 $s$ 。
    矩阵补全
    
    从观测信号中恢复出原本的稀疏信号。
    - 重要符号
      - 需要恢复的稀疏信号： $\mathbf{X}\in\mathbb{R}^{m\times n}$
      - 观测信号： $A$ ，秩为 $r$
      - 观测信号中未知元素下标集合： $\Omega$
      - 稀疏矩阵的奇异值： $\sigma(\mathbf{X})$
      - 核范数： $\|\mathbf{X}\|_*=\sum_{j=1}^{\min\{m,n\}}\sigma_j(\mathbf{X})$
    - 目标函数
      
      $min X ∥ X ∥ *$ $\min_\mathbf{X}\|\mathbf{X}\|_*$
      
      $s.t. (X) i j = (A) i j, (i, j) \in Ω$ $\text{s.t.}\quad (\mathbf{X})_{ij}=(\mathbf{A})_{ij},\quad(i,j)\in\Omega$
    - 恢复条件： $O(mr\log^2m)$