《西瓜书》笔记11:特征选择方法(一)

1. 子集搜索与评价

1.1 概述

从给定的特征集合中,选择出相关特征子集的过程,称为特征选择。

为什么进行特征选择?

  • 维数灾难。属性过多,选择出重要特征,后续学习减轻。从此意义上看,特征选择与降维动机相似,这两者是处理高维数据的两大主流技术。
  • 去除不相关的特征降低学习任务的难度。抽丝剥茧留下关键因素。

特征选择不能丢失重要特征,否则导致欠拟合。给定数据集,若学习任务不同,则相关特征不同。因此无关特征,指的是与当前学习任务无关。

冗余特征:其包含的信息可从其他特征推演而来。如立方体已有特征长,宽,则底面积是冗余特征。一般的冗余特征不起作用,去除可减轻学习负担。但有时冗余特征会降低学习难度,当其恰好对应了完成学习任务所需的中间概念时,此时是有益的。

1.2 选取特征子集

从原始集合中选取一个包含了所有重要信息的特征子集。若没有任何先验知识,只能遍历所有可能子集。计算上不可行。

可行:产生候选子集。评价其好坏。基于评价结果产生下一个候选子集,再对其评价。不断持续下去,直至无法找到更好的候选子集为止。

此处涉及两个环节:如何根据评价结果获取下一个候选子集?如何评价候选子集的好坏?

第一个环节:子集搜索。给定特征集合,将每个特征看作一个候选子集,对d个候选单特征子集评价,选择最优的一个,作为第一轮的集。然后在上一轮的选定集中加入一个特征,构成包含两个特征的候选子集;迭代到某轮时加一个不如不加,则停止。逐渐增加相关特征的策略为前向搜索。

类似地,还可以从完整的特征集合开始,每次去掉一个无关特征,称为后向搜索。

上述策略是贪心策略,考虑本轮最优,局部最优解。计算上可行。不穷举则不能全局最优。

第二个环节:子集评价。给定数据集D,计算属性子集A的信息增益即可。信息增益越大,意味着特征子集A包含的有助于分类的信息越多。

这里写图片描述
这里写图片描述

特征选择方法 = 特征子集搜索 + 子集评价机制

决策树算法:前向搜索 + 信息熵

实际上,决策树可用于特征选择,树节点的划分属性所组成的集合,就是选择出的特征子集。其他的特征选择方法未必像决策树这样明显,但本质上都是显示或隐式地结合了子集搜索机制和子集评价机制。

常见的特征选择方法:

  • 过滤式 filter
  • 包裹式 wrapper
  • 嵌入式 embedding

具体讨论见下节。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值