一、特征选择
特征选择主要有三种方式:
1.1 Filter 方法
主要思想: 对每一维特征进行“打分”,即给每一维的特征赋予权重,这样的权重即代表了该维特征的重要性,然后根据权重排序。
主要方法:
Chi-squared test
卡方检验information gain
信息增益correlation coeficient scores
相关系数
1.2 Wrapper 方法
主要思想: 将子集的选择看作是搜索寻优问题,生成不同的组合,对组合进行评价,再与其他组合进行比较。这样将子集的选择看作是一个优化问题,通过优化算法即可解决。
主要方法:
Recursive Feature Elimiantion Algorithm
递归特征消除算法
1.3 Embedded 方法
主要思想: 在模型既定的情况下学习出对提高模型准确性最好的属性,即在确定模型的过程中,挑选出那些对模型的训练有重要意义的属性。
主要方法:
正则化
、岭回归
就是在基本线性回归的过程中加入了正则项