学习笔记,,备忘录。。。
内容来源:知乎:特征工程到底是什么?
- 实际应用中的数据往往很多,并存在不相关的特性,特性之间也可能存在相互依赖。
- 通过特征选择剔除不相关或冗余的特征,减少特征个数,减少运行时间的目的。
- 数据预处理后,需要选择有意义的特征,然后再输入机器学习的算法和模型进行训练。
一、相关系数法
- 计算各个特征对目标值的相关系数,选择更加相关的特征。
原始数据:
步骤说明:
- 导入数据
- 使用SelectKBest类,通过回归的方法,确定选择几个特征值
- 选择自变量,调用fit_transform()方法
- 把自变量和因变量传入,选择相关度比较高的两个变量
- 通过get_support()方法获得相应的列名
示例代码: