转自: https://www.zhenxiangsimple.com/2019/04/09/tech-ml-tzxsxx/
特征选择
特征选择可以理解为降维(点击查看文章),就是在样本的众多属性数据中选择部分属性或特征作为学习的数据,常见的特征选择分为过滤式、包裹式和嵌入式三类。一方面可以减轻后期学习的计算量,尽量避免维数灾难问题,另一方面,可以降低学习难度,毕竟维数减少后使用较少的维度更容易找到样本之间的关系。
1.过滤式选择
指先对数据集进行特征选择,然后再训练学习器,而特征选择过程跟训练过程无关,相当于先用特征选择过程对初始样本的特征进行了过滤,然后使用过滤后的样本属性特征进行学习器的训练。常用Relief算法的思想是为样本的各属性计算统计分量,来选择分量值较大即具有较强分类能力的属性。
2.包裹式选择
跟过滤式不同,包裹式选择直接把最终要使用的学习器也作为特征子集的评价标准,也可以理解为,包裹式特征选择的目的就是,为指定的学习器选择最优的特征子集。常见LVM算法的思想是针对一个学习器,选择随机选择一个特征子集跟当前的子集进行比较,如果新选的随机子集的误差更小,或者误差相同情况下特征数少,则用新的特征子集代替初始子集。