特征选择是重要的数据预处理技术
原因:避免维度爆炸,降低学习难度
处理高维数据的两大主流技术:
特征选择,降维
评价特征子集的好坏:
信息增益
常用的特征选择方法有三种:
过滤式选择:
——特征选择有后续机器学习无关,先对数据集进行特征选择,再进行机器学习
包裹式选择
——将最终的使用的机器学习的性能作为特征子集的评价标准
嵌入式选择
——将特征选择与机器学习的训练过程融为一体
——如:L1正则化——L1范数处理能进降低过拟合的风险,并且更趋向于获得稀疏的解,即求得的w会有更少的非零向量