第十一章 特征选择与稀疏学习
-
特征选择:子集选择、子集评价
- 过滤式选择
- 包裹式选择
- 嵌入式选择:用L1Z正则化
-
稀疏表示:
- 字典学习
- 压缩感知
11.1 子集搜索与评价
-
特征的分类
- 相关特征: 对当前学习任务有用的属性
- 无关特征: 与当前学习任务无关的属性(会增加构建学习器的难度)
- 冗余特征*: 其所包含信息能由其他特征推演出来(有用的不需要去掉,使得学习算法更有利求解)
-
特征选择的一般方法:
- 遍历所有可能的子集 ——> 计算上遭遇组合爆炸,不可行
- 可行方法:
- 产生初始候选子集
- 评价候选子集的好坏
-
两个关键环节:
- 子集搜索(贪心算法)
- 前向搜索:逐渐增加相关特征
- 后向搜索:从完整的特征集合开始,逐渐减少特征
- 双向搜索:每一轮逐渐增加相关特征,同时减少无关特征
- 子集评价
- 使用信息增益,选择信息增益大的属性
- 子集搜索(贪心算法)
11.2 常见的特征选择方法
- 将特征子集搜索机制与子集评价机制相结合,