11.1 子集搜索与评价
名词:
特征:属性
相关特征:对当前学习任务有用的属性
冗余特征:
信息可从其他特征中推演得出
若某冗余特征恰好对应了学习任务所需的“中间概念”,该冗余特征有益
特征选择:从给定的特征集合中选择出相关特征子集的过程
特征选择:
重要的数据预处理过程:获得数据->特征选择->训练学习器
原因
属性过多会导致维数灾难
去除无关特征会降低学习任务的难度
必须确保不丢失重要特征
特征选择方法:
特征选择可行方法:产生一个候选子集,评价其好坏,持续进行到无法找到更好的候选子集。两个问题:
如何根据评价结果找到下一个候选子集?
子集搜索
穷举搜索:这种方法涉及评估所有可能的特征或变量组合,对于大型数据集来说可能计算量大且耗时。
贪心搜索:如前向选择、后向消除、双向搜索,比穷举搜索更快,但可能无法找到最优解。
如何评价候选子集的好坏?
子集评价
对于每个候选特征子集,训练数据集来计算其信息增益,信息增益越大,特征子集包含的有助于分类的信息越多。
常见特征选择方法:
过滤式
包裹式
嵌入式
11.2 过滤式选择
特征选择过程与后续学习器无关
Relief (Relevant Features): 通过比较相邻的同类样本、异类样本之间的特征差异来估计特征的重要性
11.3 包裹式选择
特征子集的评价标准就是后续学习器的性能
LVW (Las Vegas Wrapper): 在Las Vegas method框架下使用随机策略进行子集搜索,并以最终分类器的误差为特征子集评价标准
11.4 嵌入式选择与正则化
特征选择过程与学习器训练过程融为一体
容易过拟合,缓解方法正则化
11.5 稀疏表示与字典学习
稀疏性:
数据集矩阵中,很多特征(矩阵列)与当前学习任务无关
矩阵中存在很多零元素:这种稀疏表达形式会带给学习任务很多好处
稀疏表示:将普通非稀疏数据转化为稀疏形式
字典学习:在给定一个字典(基向量组)的情况下,通过寻找每个输入信号最优的稀疏表示来提取信号的特征。这种表示可以用优化算法来求解,例如L1范数最小化
11.6 压缩感知
压缩感知:如何利用信号本身所具有的稀疏性,从部分观测样本中恢复原信号
感知测量
关注如何对原始信号进行处理以获得稀疏样本表示
重构恢复
如何基于稀疏性从少量观测中恢复原信号,是压缩感知的精髓