机器学习之特征选择——《机器学习-周志华》学习笔记

最新推荐文章于 2023-09-11 09:05:39 发布

echo__o

最新推荐文章于 2023-09-11 09:05:39 发布

阅读量809

点赞数 2

本文链接：https://blog.csdn.net/echo__o/article/details/96726293

版权

1、简述特征选择的目的

● 将高维空间的样本通过映射或者是变换的方式转换到低维空间，达到降维的目的
● 通过特征选取删选掉冗余和不相关的特征来降低学习任务的难度

2、试比较特征选择与第十章介绍的降维方法的异同

相同点：都可以达到降维的目的
不同点：
降维本质上是从一个维度空间映射到另一个维度空间，特征的多少别没有减少，当然在映射的过程中特征值也会相应的变化。举个例子，现在的特征是1000维，我们想要把它降到500维。降维的过程就是找个一个从1000维映射到500维的映射关系。原始数据中的1000个特征，每一个都对应着降维后的500维空间中的一个值。假设原始特征中有个特征的值是9，那么降维后对应的值可能是3。
特征选择就是单纯地从提取到的所有特征中选择部分特征作为训练集特征，特征在选择前和选择后不改变值，但是选择后的特征维数肯定比选择前小，毕竟我们只选择了其中的一部分特征。举个例子，现在的特征是1000维，现在我们要从这1000个特征中选择500个，那个这500个特征的值就跟对应的原始特征中那500个特征值是完全一样的。对于另个500个没有被选择到的特征就直接抛弃了。假设原始特征中有个特征的值是9，那么特征选择选到这个特征后它的值还是9，并没有改变。

3、特征选择根据选择策略可以分为哪几类，分别说明其特点

过滤式选择

过滤式选择主要是先用特征选择来对原始特征进行过滤，然后将过滤后的特征传入学习器。
过滤式选择给每个初始特征赋予了一个相关统计量，用以衡量特征的重要性，然后设立一个相关统计量的阈值来进行过滤。
注意过滤式的方法是独立于后续学习器的，也就是学习器无关的。
Relief:对每一维的特征“打分”，即给每一维的特征赋予权重，这样的权重就代表着该维特征的重要性，然后依据权重排序。

包裹式选择

包裹式选择直接把最终要用的的学习器性能作为特征自己的评价标准，因此从性能上看，包裹式特征选择比过滤式特征选择更好，但是由于需要多次训练学习器，计算开销会大得多。
LVW:将子集的选择看作是一个搜索寻优问题，生成不同的组合，对组合进行评价，再与其他的组合进行比较。

嵌入式选择

嵌入式特征选择将特征选择和学习器训练过程融为一体了，二者在同一个优化过程中完成，在学习器训练的过程中也自动地进行特征选择。
其主要思想是：在确定模型的过程中，挑选出那些对模型的训练有重要意义的属性。

4、试写出Relief-F的算法描述。

Relief定义猜中近邻为某个样本的同类样本中最近邻 $x_{i,nh}$ ，而猜错近邻为异类样本中的最近邻 $x_{i,nm}$ ，那么定义相关统计量对应于属性j的分量为：
$\delta ^{j}=\sum_{i}^{ }diff\left ( x_{i}^{j},x_{i,nh}^{j} \right )^{2}+diff\left ( x_{i}^{j},x_{i,l,nm}^{j} \right )^{2}$
如果相关统计量越大，那么属性j上，猜对近邻比猜错近邻更近，那么属性j也就越有用。
Relief-F算法在处理多类问题时，每次从训练样本集中随机取出一个样本R，然后从和R同类的样本集中找出R的k个近邻样本(near Hits)，从每个R的不同类的样本集中均找出k个近邻样本，然后更新每个特征的权重

输入：训练集D，抽样次数m，特征权重阈值δ，最近邻样本个数k，
输出：各个特征的特征权重T。

置所有特征权重为0，T为空集
for i = 1 to m
从D中随机选择一个样本R；
从R的同类样本集中找到R的k个最近邻Hj(j=1,2,…,k)Hj(j=1,2,…,k),从每一个不同类样本集中找到k个最近邻 $x_{i,l,nm}$ ;
for A=1 to N(all features)
$\delta ^{j}=\sum_{i}^{ }diff\left ( x_{i}^{j},x_{i,nh}^{j} \right )^{2}+\sum_{l\neq k}^{ }\left (p_{l}\times diff\left ( x_{i}^{j},x_{i,l,nm}^{j} \right )^{2} \right )$
end