机器学习--特征选择

最新推荐文章于 2022-09-23 12:35:20 发布

Sunshine_in_Moon

最新推荐文章于 2022-09-23 12:35:20 发布

阅读量918

点赞数

分类专栏：机器学习

机器学习专栏收录该内容

33 篇文章 1 订阅

订阅专栏

本文转自：

http://blog.csdn.net/linkin1005/article/details/43018827

特征选择是一种及其重要的数据预处理方法。假设你需要处理一个监督学习问题，样本的特征数非常大（甚至 $n\gg m$ ），但是可能仅仅有少部分特征会和对结果产生影响。甚至是简单的线性分类，如果样本特征数超过了n，但假设函数的VC维确仍然是O(n)，那么，除非大大扩展训练集的数量，否则即会带来过拟合的问题。在这样的情况下，可以使用特征选择算法降低特征的数量。

假设样本有n个特征，那么，其有 $2^n-1$ 种可能的特征子集，如果特征选择需要去穷举所有 $2^n$ 种可能的特征子集，对于n比较大的情况，计算的代价太大，无法真正实现。因此可以通过一些启发式算法实现特征的选择。

正向搜索/反向搜索（forward/backwardsearch）

正向搜索的基本思想是：依次在当前集合中加入一个其没有的属性，然后用交叉验证等方法对新的集合进行评估，找出评估结果最佳的属性加入当前集合。不断重复上面的步骤，直到加入任何新的属性都不能提高评估结果算法即告停止。此算法是一个典型的贪心算法，可能找到局部最优的属性集，但是不一定是全局最优。

1.Initialize $\mathcal {F} = \emptyset$ ;

2.repeat{

(a) for i=1,…,n

if $i\notin \mathcal F$ ,let $\mathcal F_i=F\cup\{i\}$

then 交叉验证评估特征集 $\mathcal F_i$ （泛化误差最小的）

(b) 找出步骤(a)中最佳特征子集F

}

3. 找出在整个搜索过程中最佳特征子集。
反向搜索与正向搜索恰恰相反，它是假设所有的特征都在集合内，逐步减少属性，直至找到（局部）最优属性集。
类似前向/后向搜索方法，称为封装模型特征选择算法（wrapper model feature selection algorithm），因为在该方法执行过程中，不断重复的运行学习算法去评估属性集的好坏。封装模型特征选择算法通常比较有效，但是需要反复的运行学习算法，产生大量的计算。事实上，完成一次前向搜索算法，大约需要调用 $O(n^2)$ 次学习算法。