[机器学习]特征选择与稀疏学习

本文档记录了《机器学习》第 11 章特征选择与稀疏学习相关内容

子集搜索与评价

为什么要进行特征选择

  • 属性过多会导致维数灾难,与降维的动机类似
  • 去除不相关特征常常可以降低学习任务的难度

特征分类

  • 相关特征
  • 无关特征
  • 冗余特征

特征选择的过程

特征过少->数据重叠,无法区分。

特征过多->同类样本变远、变稀疏了,不易区分。

与决策树比较相似,实际上决策树也可以用作特征选择。

子集搜索

  • 前向搜索:特征子集的特征数从少到多进行扩充
  • 后向搜索:从完整特征集开始,每次尝试去掉某个特征
  • 双向搜索:每一轮逐渐增加选定特征,它们在后续轮中将不会被去除(前向),并且减少无关特征(后向)

子集评价

  • D :数据集
  • pi:数据集中第 i 类样本所占的比例
  • A:属性子集,可根据其取值将数据集划分为 V 个子集 {D1,D2,...,DV}
  • 信息熵:

    Ent(D)=k=1||pklog2pk

  • 属性子集 A 的信息增益:

    Gain(A)=Ent(D)v=1V|Dv||D|Ent(Dv)

    信息增益越小,说明属性子集 A 的代表性越好。

过滤式(Filter)特征选择

先对数据集进行特征选择,再训练学习器,且特征选择与后续学习器无关,即学习器的性能即为对特征子集的评价。

  • 特点:训练快速

Relief

  • 主要思想:设计一个向量(“相关统计量”)来度量特征的重要性,每个分量对应一个初始特征,特征子集的重要性由子集中每个特征对应的分量之和决定。
    • 通过设定阈值 τ过滤相关分量,只保留满足阈值的分量对应的特征。

    • 设定希望保留的特征个数 k 过滤
  • 确定相关统计分量

    • 猜中近邻 xi,nh xi 同类中最相近的样本
    • 猜错近邻 xi,nm xi 异类中最相近的样本
    • 属性 j 的分量:δj 越大,属性 j 的分类能力越强

      δj=idiff(xji,xji,nh)2+diff(xji,xji,nm)2

    Relief-F

    二分类 Relief 在多分类任务上的变形

    δj=idiff(xji,xji,nh)2+lk(pl×diff(xji,xji,l,nm)2)

    其中 xi 的类别为 k pl 表示第 l 类样本所占的比例,xi,l,nm 表示第 l 类中最近邻样本。

    包裹式(Wrapper)特征选择

    给定学习器,选择最有利于该学习器性能的特征子集,即根据目标学习器的性能选择特征子集。
    * 特点:计算开销大

    随机化方法

    • 拉斯维加斯:在有时间要求的情况下,要么给出满足要求的解,要么不能给出解。
    • 蒙特卡罗:一定会给出解,但并不一定能给出满足要求的解。

    Las Vegas Wrapper

    使用随机策略进行子集搜索,每次随机生成一个特征子集之后都要对学习器进行训练。
    * 如果学习器的学习误差减小,则选用当前特征子集。
    * 如果学习器的学习误差不变,但是特征子集的大小比之前最优结果的特征子集小,则选用当前特征子集。

    嵌入式(Embedding)特征选择

    特征选择过程与学习器训练过程融为一体,即学习器训练过程中能自动的进行特征选择。

    正则化

    • LASSO:L1 范数正则化,等值线 di=1|wi|=Const

      • 岭回归:L2 范数正则化,等值线 di=1|wi|2=Const
      • 近端梯度下降 PGD

        • 目的:求解 L1 正则化问题。
        • 优化目标: minxf(x)+λx1
        • 寻找最小值:

          f(x)=f(x)f(x)22xx22L

          二阶泰勒展开式:

          f̂ (x)f(xk)+f(xk),xxk+L2xxk22

          其中 xk f(xk) 都是已知常量,通过拆分和配分可以得到:

          f̂ (x)=L2x(xk1Lf(xk))22

          显然当 x=xk1Lf(xk) 时有最小值,进而优化目标可以改变为:

          xk+1=argminxL2x(xk1Lf(xk))22+λx1

        稀疏表示和字典学习

        稀疏表示

        • 学习难度降低
        • 计算和存储开销降低
        • 模型可解释性提高

        字典学习

        简单形式

        • 字典词汇量: k
        • 字典矩阵:Bd×k
        • 样本: xid
        • 样本的稀疏表示: αik
        • 目标函数:

          minB,αii=1mxiBαi22+λi=1mαi1

        变量交替优化求解

        1. 固定字典 B ,为每个样本 xi 更新 αi

          minαixiBαi22+λαi1

        2. 通过 αi 更新 B

          minBXBA2F=minbiXj=1kbjαj2F=minbiXjibjαjbiαi2F

          其中 Ei=Xjibjαj 在仅对第 i 列更新时是固定的,具体更新过程:αi 仅保留非零元素, Ei 仅保留 bi αi 的非零元素的乘积项,然后对 Ei 进行奇异值分解得到最大奇异值对应的正交向量。也就是先将 biαi αi 为 0 的维度去掉。

        压缩感知

        两个阶段:

        • 感知测量:从原本样本到稀疏表示
        • 重构恢复:基于稀疏性从少量观测中恢复原信号

        限定等距性

        从采样信号中重构出原始信号。

        • 重要符号
          • 原始信号: xm
          • 采样信号: yn,nm
          • 测量矩阵: Φn×m,y=Φx
          • 线性变换矩阵(稀疏基): Ψm×m,x=Ψsy=ΦΨs=As ,新目标:根据 y 恢复 s
        • 限定等距性:存在常数 δk(0,1) ,对任意 s A 的所有子矩阵 Akn×k ,有

          (1δk)s22Aks22(1+δk)s22

          通过 minss0 minss1 y 中恢复 s

        矩阵补全

        从观测信号中恢复出原本的稀疏信号。

        • 重要符号
          • 需要恢复的稀疏信号: Xm×n
          • 观测信号: A ,秩为 r
          • 观测信号中未知元素下标集合: Ω
          • 稀疏矩阵的奇异值: σ(X)
          • 核范数: X=min{m,n}j=1σj(X)
        • 目标函数

          minXX

          s.t.(X)ij=(A)ij,(i,j)Ω

        • 恢复条件: O(mrlog2m)
  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值