本文档记录了《机器学习》第 11 章特征选择与稀疏学习相关内容
子集搜索与评价
为什么要进行特征选择
- 属性过多会导致维数灾难,与降维的动机类似
- 去除不相关特征常常可以降低学习任务的难度
特征分类
- 相关特征
- 无关特征
- 冗余特征
特征选择的过程
特征过少->数据重叠,无法区分。
特征过多->同类样本变远、变稀疏了,不易区分。
与决策树比较相似,实际上决策树也可以用作特征选择。
子集搜索
- 前向搜索:特征子集的特征数从少到多进行扩充
- 后向搜索:从完整特征集开始,每次尝试去掉某个特征
- 双向搜索:每一轮逐渐增加选定特征,它们在后续轮中将不会被去除(前向),并且减少无关特征(后向)
子集评价
- D :数据集
pi :数据集中第 i 类样本所占的比例A :属性子集,可根据其取值将数据集划分为 V 个子集{D1,D2,...,DV} 信息熵:
Ent(D)=−∑k=1||pklog2pk属性子集 A 的信息增益:
Gain(A)=Ent(D)−∑v=1V|Dv||D|Ent(Dv) 信息增益越小,说明属性子集 A 的代表性越好。
过滤式(Filter)特征选择
先对数据集进行特征选择,再训练学习器,且特征选择与后续学习器无关,即学习器的性能即为对特征子集的评价。
- 特点:训练快速
Relief
- 主要思想:设计一个向量(“相关统计量”)来度量特征的重要性,每个分量对应一个初始特征,特征子集的重要性由子集中每个特征对应的分量之和决定。
- 通过设定阈值
τ 来过滤
相关分量,只保留满足阈值的分量对应的特征。 - 设定希望保留的特征个数
k
来
过滤
。
- 通过设定阈值
确定相关统计分量
- 猜中近邻
xi,nh : xi 同类中最相近的样本 - 猜错近邻 xi,nm : xi 异类中最相近的样本
属性 j 的分量:
δj 越大,属性 j 的分类能力越强δj=∑i−diff(xji,xji,nh)2+diff(xji,xji,nm)2
Relief-F
二分类 Relief 在多分类任务上的变形
δj=∑i−diff(xji,xji,nh)2+∑l≠k(pl×diff(xji,xji,l,nm)2)其中 xi 的类别为 k ,
pl 表示第 l 类样本所占的比例,xi,l,nm 表示第 l 类中最近邻样本。包裹式(Wrapper)特征选择
给定学习器,选择最有利于该学习器性能的特征子集,即根据目标学习器的性能选择特征子集。
* 特点:计算开销大随机化方法
- 拉斯维加斯:在有时间要求的情况下,要么给出满足要求的解,要么不能给出解。
- 蒙特卡罗:一定会给出解,但并不一定能给出满足要求的解。
Las Vegas Wrapper
使用随机策略进行子集搜索,每次随机生成一个特征子集之后都要对学习器进行训练。
* 如果学习器的学习误差减小,则选用当前特征子集。
* 如果学习器的学习误差不变,但是特征子集的大小比之前最优结果的特征子集小,则选用当前特征子集。嵌入式(Embedding)特征选择
特征选择过程与学习器训练过程融为一体,即学习器训练过程中能自动的进行特征选择。
正则化
- LASSO:L1 范数正则化,等值线
∑di=1|wi|=Const - 岭回归:L2 范数正则化,等值线 ∑di=1|wi|2=Const
近端梯度下降 PGD
- 目的:求解 L1 正则化问题。
- 优化目标: minxf(x)+λ∥x∥1
寻找最小值:
f(x)=∥∇f(x′)−∇f(x)∥22∥x′−x∥22≤L二阶泰勒展开式:
f̂ (x)≃f(xk)+⟨∇f(xk),x−xk⟩+L2∥x−xk∥22其中 xk 和 ∇f(xk) 都是已知常量,通过拆分和配分可以得到:
f̂ (x)=L2∥x−(xk−1L∇f(xk))∥22显然当 x=xk−1L∇f(xk) 时有最小值,进而优化目标可以改变为:
xk+1=argminxL2∥x−(xk−1L∇f(xk))∥22+λ∥x∥1
稀疏表示和字典学习
稀疏表示
- 学习难度降低
- 计算和存储开销降低
- 模型可解释性提高
字典学习
简单形式
- 字典词汇量: k
- 字典矩阵:
B∈ℝd×k - 样本: xi∈ℝd
- 样本的稀疏表示: αi∈ℝk
目标函数:
minB,αi∑i=1m∥xi−Bαi∥22+λ∑i=1m∥αi∥1
变量交替优化求解
固定字典 B ,为每个样本 xi 更新 αi :
minαi∥xi−Bαi∥22+λ∥αi∥1通过 αi 更新 B :
minB∥X−BA∥2F=minbi∥X−∑j=1kbjαj∥2F=minbi∥X−∑j≠ibjαj−biαi∥2F其中 Ei=X−∑j≠ibjαj 在仅对第 i 列更新时是固定的,具体更新过程:
αi 仅保留非零元素, Ei 仅保留 bi 和 αi 的非零元素的乘积项,然后对 Ei 进行奇异值分解得到最大奇异值对应的正交向量。也就是先将 biαi 中 αi 为 0 的维度去掉。
压缩感知
两个阶段:
- 感知测量:从原本样本到稀疏表示
- 重构恢复:基于稀疏性从少量观测中恢复原信号
限定等距性
从采样信号中重构出原始信号。
- 重要符号
- 原始信号: x∈ℝm
- 采样信号: y∈ℝn,n≪m
- 测量矩阵: Φ∈ℝn×m,y=Φx
- 线性变换矩阵(稀疏基):
Ψ∈ℝm×m,x=Ψs→y=ΦΨs=As
,新目标:根据
y
恢复
s
限定等距性:存在常数 δk∈(0,1) ,对任意 s 和
A 的所有子矩阵 Ak∈ℝn×k ,有(1−δk)∥s∥22≤∥Aks∥22≤(1+δk)∥s∥22通过 mins∥s∥0 或 mins∥s∥1 从 y 中恢复
s 。
矩阵补全
从观测信号中恢复出原本的稀疏信号。
- 重要符号
- 需要恢复的稀疏信号: X∈ℝm×n
- 观测信号:
A
,秩为
r - 观测信号中未知元素下标集合: Ω
- 稀疏矩阵的奇异值: σ(X)
- 核范数: ∥X∥∗=∑min{m,n}j=1σj(X)
目标函数
minX∥X∥∗s.t.(X)ij=(A)ij,(i,j)∈Ω- 恢复条件: O(mrlog2m)
- 猜中近邻