什么是数据的特征?
比如区分金毛和吉娃娃,他们都是狗狗,他们有的特征为:身高、耳朵大小、毛素、体重大小等等,这些定性的描述就是特征
为什么区分好用的特征?
机器在学习过程中,需要对数据维度降维,
(1)提高机器学习速度,较少过拟合
(2)使模型泛化能力更强
(3)增强对特征和特征值之间的理解
区分特征的注意事项?
1.定性的特征,需要转化为定量的特征才能使用
2.方差小的数据,没什么用,多选择离散程度大的变量
3.去无意义、重复性、避免复杂的数据
区分特征的方法?
Filter方法:
主要思想是:对每一维的特征进行“打分”,即给每一维的特征赋予权重,这样的权重就代表着该维特征的重要性,然后依据权重进行排序。主要的方法是:Chi-squared test(卡方检验),information gain(信息增益),correlation coefficient scores(相关系数)
Wrapper方法:
其主要思想是:将子集的选择看作是一个搜索寻优问题,对组合进行评价,再与其他的组合进行比较。这样就将子集的选择看作是一个优化问题,这里有很多的优化算法可以解决,齐次是一些启发的优化算法,如GA,PSO,DE,ABC等。主要方法有:recursive feature elimination algorithm(递归特征消除算法)
Embedded方法:
其主要思想是:在模型既定的情况下学习出对提高模型准确性最好的属性。其实是讲在确定模型的过程中,挑选出那些对模型的训练有重要意义的属性。主要方法有:正则化,岭回归就是在基本线性回归的过程中加入了正则项。