1.异常值可以删除,但也要留一些,因为测试集里也有异常值,留一些异常值可以让模型更鲁棒。
2.主要用fillna来填充缺失值
3.stacking方法在处理这个问题有很好的帮助,可以用ENet,GBoost,KRR,lasso这四个模型stacking一下。
首先是普通的平均stacking
与此同时的Enet,GBoost,KRR,lasso四个模型的效果如下:
然后是把Enet,KRR,Gboost作为平均,把lasso作为后设模型。
这样的效果比较四个模型平均会变好
5.集成模型
最后预测的时候可以把上面的stacking模型的结果和xgboost,lightGbm加权求值