特征选择的本质是选出最具有代表性的特征同时剔除无关或冗余的特征。
而噪声具体指的是数据中不具有实际意义的无关信息或者随机波动(随机波动指的是无关数据与模型的具体任务分布是随机的不是关键特征),如果在模型中使用包含噪声的特征进行训练,会学习到噪声中的虚假模式,导致在训练集上表现良好但在新数据上表现差即过拟合现象。
那么有效的特征选择有什么作用呢?其中之一就是剔除噪声特征(通过卡方检验、方差分析等的统计方法、基于树模型的特征重要性等的模型评估方法以及Lasso回归等的正则化手段,识别并剔除噪声);降低模型的复杂度(例如使用Lasso回归时候,正则化项会将无关特征的系数压缩为零,通过减少特征数量间接实现特征选择降低模型复杂度从而减少对噪声的过度拟合);提升泛化能力(模型仅通过特征选择后的特征进行预测,避免了噪声干扰提高了在未知数据上的稳定性从而提升了泛化能力)
举一个例子来说明一下叭~ 任务:房价预测 可选特征:房屋面积(有效特征)、卧室数量(有效特征)以及随机温度数据(噪声) 如果没有进行特征选择模型错误的将房价与温度关联起来导致预测不可靠;反之如果通过特征选择排除噪声数据后模型将更专注于真正相关的因素预测将会更加可靠。
综上有效的特征选择能够减低对噪声的敏感度指的是通过特征选择尽可能地剔除无关信息的干扰从而少对噪声的敏感度。