特征工程(7中常用)
https://www.cnblogs.com/peizhe123/p/7412364.html
- 时间戳处理 import data
- 分解类别属性 one-hot dummy
- 分箱/分区 (划分区间段,结合领域知识基础) ------分箱------
- 交叉特征 (将两个多个特征组合)
- 特征选择(算法 选出原始特征子集,修剪特征可以减少噪声、冗余。评分法来排名选择)
- 特征缩放 (某些特征跨度值更多)
- 特征提取
预处理
- 数据清洗
- 数据规范化处理
- 特征衍生与提取
特征选择
- 特征过滤
- wrapper
- enbedded
填充 :
0 pandas data.fillna(0)
均值、中位数、频数 data.fillna(data.mean()\median()) 结果粗糙
最大最小
序号相邻 data.fillna(method=‘bfill’)
相似性(k最近邻)
线性回归填充 共线性问题
不赞成填充,设置哑变量(dummy val)
https://www.jianshu.com/p/5d883a293730
这边参考了两个模型的设计思路,一个是bagging算法的随机抽取避免过拟合,另一个是Tomek+Somte的填充方法