特征工程:子集搜索与子集评价
-
1、相关知识:
特征:描述目标的属性。 特征选择:从原始特征集合中选取一个包含了所有重要信息的特征子集。 特征类型:相关特征、无关特征、冗余特征。 为什么需要特征选择: a) 缓解维数灾难问题,该动机类似于特征降维; b) 去除不相关特征往往会降低学习任务的难度。 如何特征选择: 特征选择 = 子集搜索 + 子集评价
-
2、解决方式(思想):
产生“候选子集”并对其进行评价,基于评价结果产生下一个候选子集, 重复以上操作直到无法找到更好的候选子集。
-
3、子集搜索
(贪心搜索减少计算,寻找局部最优而非全局) a) 前向搜索:将每个特征看作一个候选子集,逐渐增加相关特征的策略。 b) 后向搜索:从完整的特征集合开始,逐渐减少无关特征的策略。 c) 双向搜索:结合前向和后向,每轮增加选定相关特征,同时减少无关特征。
-
4、 子集评价
常用信息增益评价子集,类似决策树。 信息熵:描述信息的混乱程度,信息的不确定程度。(10个棋子中,5个黑色5个白,此时任意取一个, 棋子是黑或白的概率都是0.5,不确定程度最大,信息最混乱,熵也最大。) 条件熵:在某一条件下,信息的不确定性。 信息增益&#