周志华 机器学习 Day19

                                  特征选择与稀疏学习

子集搜索与评价

对一个学习任务来说,给定属性集,其中有些属性可能很关键、很有用,另一些属性则可能没什么用。我们将属性称为“特征”,对当前学习任务有用的属性称为“相关特征”,没什么用的属性称为“无关特征”;从给定的特征集合中选择出相关特征子集的过程,称为“特征选择”。

特征选择是一个重要的“数据预处理”过程,在现实机器学习任务中,获得数据之后通常先进行特征选择,此后再训练学习器。

如何根据评价结果获取下一个候选特征子集?如何评价候选特征子集的好坏?

第一个环节是“子集搜索”问题。给定特征集合,我们可将每个特征看做一个候选子集,对这些个候选单特征子集进行评价,循环选出当前最优的特征子集,当下一个候选特征子集不如上一轮时,则停止生成候选特征子集,并将上一轮的特征集合作为特征选择结果,这样逐渐增加相关特征的策略称为“前向”搜索。类似地,若我们从完整的特征集合开始,每次尝试去掉一个无关特征,这样逐渐减少特征的策略称为“后向”搜索。

第二个环节是“子集评价”问题。给定数据集D,假定D中第i类样本所占的比例为pi,对属性子集A,假定根据其取值将D分成了V个子集,每个子集中的样本在A上的取值相同,于是求得属性子集A的信息增益

其中信息熵的定义为

信息增益Gain(A)越大,意味着特征子集A包含的有助于分类的信息越多。

过滤式选择

过滤式方法先对数据集进行特征选择,然后再训练学习器,特征选择过程与后续学习器无关。这相当于先用特征选择过程对初始特征进行“过滤”,再用过滤后的特征来训练模型。

Relief是一种著名的过滤式特征选择方法,该方法设计了一个“相关统计量”来度量特征的重要性。该统计量是一个向量,其每个分量分别对应于一个初始特征,而特征子集的重要性则是由子集中每个特征所对应的相关统计量分量之和来决定。于是,最终只需制定一个阈值τ,然后选择比τ大的相关统计量分量所对应的特征即可。

包裹式选择

包裹式特征选择直接把最终将要使用的学习器的性能作为特征子集的评价标准。换言之,包裹式特征选择的目的就是为给定学习器选择最有利于其性能、“量身定做”的特征子集。

LVW是一个典型的包裹式特征选择方法。它在拉斯维加斯方法框架下使用随机策略来进行子集搜索,并以最终分类器的误差为特征子集评价准则。

算法第8行是通过在数据集D上,使用价差验证法来估计学习器ξ的误差,注意这个误差是在仅考虑特征子集A’时得到的,即特征子集A’上的误差,若它比当前特征子集A上的误差更小,或误差相当但A‘中包含的特征数更少,则将A’保留下来。

需要注意的是,由于LVW算法中特征子集搜索采用了随机策略,而每次特征子集评价都需训练学习器,计算开销很大,因此算法设置了停止条件控制参数T。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值