1.特征选择
1.1 Feature Selection with Null Importances
大致思路:
- 随机目标,训练模型,得到不管目标情况下的特征重要性,例如使用lightgbm可以包括split 和gain score,训练多次,可以得到多次特征重要性的分布
- 利用真实的目标,训练模型,得到真实的目标的重要程度,这样就可以与上面随机目标的重要程度做比较了
- 我的理解是,真正的重要的特征,与随机得到的重要程度相比,应该是远远大于随机的才是重要的特征。
2 模型融合
2.1 LinearRegression集成
Kaggle进阶系列:zillow竞赛特征提取与模型融合(LB~0.644)
大致思路是利用LinearRegression将多个模型的结果集成到一起。