11 特征选择和稀疏学习
11.1 子集搜索和评价
定义:特征很多,选出相关的特征的过程
原因:
- 维度灾难(和10章讲的降维有关系)
- 降低学习难度
问题的难点:组合爆炸.
解决的两个环节:
如何评价子集好坏
一个特征划分样本和正本真实划分约接近,特征效果越好.
书中的例子是使用信息熵增益
gain(A)=E
定义:特征很多,选出相关的特征的过程
原因:
- 维度灾难(和10章讲的降维有关系)
- 降低学习难度
问题的难点:组合爆炸.
解决的两个环节:
一个特征划分样本和正本真实划分约接近,特征效果越好.
书中的例子是使用信息熵增益