1、集成的问题
2、lightgbm为什么很低
- LightGBM使用有要求,基于梯度树,适用于特征少数据量大。
3、get_dummies和LabelEncoder的问题
(1)get_dummies可能会造成维度灾难;
(2)LabelEncoder减小维度。
4、相关性问题
(1)对于feature_importance进行特征选择的时候我们一般选择特征为正相关的;
(2)对于高相关性的特征我们一般采用降维的方式,不删。
5、数据的填充问题
(1)用0填充的一般是缺失的比较多数值型的;
(2)用none填充的一般是缺失的字符串;
(3)用均值填充的一般是缺失少部分的数值型。
6、关于集成的高级选项
http://ml-ensemble.com/