宽带离网用户分析之特征选择
前面我们介绍过一些特征抽取的方法(Feature Extraction),现在我们来谈谈特征选择(Feature Selection)。
1. 特征选择的重要性
特征其实是机器学习问题里面一个很重要的问题,做图像的人知道,其实图像圈子里面很多人就是做特征的。当今“大数据”的概念各种泛滥,但是“以数据为中心”的观点的确有其道理。
当数据特别多并且不断变化和增长的时候,对数据深入的理解往往可能比高端的模型知识更为有用。
如果原始数据是土,那么我们做数据预处理和特征抽取则相当于用土来烧砖块,而我们的建模就是起大厦,这中间有关键的一部——用砖块累大厦。但是用什么砖来累呢?劣质甚至不合格的砖也拿过去用吗?
不错,我们需要对砖块进行选择——特征选择。
从机器学习的角度来讲,特征选择可以减少建模的时空代价,并且好的特征可以增加模型的精度和泛化性能。从我们分类的需求来看,就是让正负样本更加可分。
说白了,特征选择可以剔除冗余的信息、无用的信息,从而使机器学习的性能更优。
2. 特征选择形式化表示
我们有特征集合 { F1,F2,...,Fn} ,假设最优的特征集合是 { Fa,Fb,Fc} ,其他的特征不是最优特征集合的冗余信息就是完全和训练不相关的无用信息。
3. 特征选择方法介绍
这里我们介绍几种常用的特征选择方法的思想,大家如果感兴趣可以去Google特征选择方法的Review,那里有更加详尽的介绍。
3.1. 搜索
从形式化表示中我们不难发现,特征选择就是搜索一个子集的问题,说白了就是一个搜索问题,如果我们不知道最优特征集合的元素个数,很明显这是一个搜索空间为