比赛网址 https://tianchi.aliyun.com/competition/entrance/231693/information
赛题分析 https://www.jianshu.com/p/f15e01d377ef?utm_campaign=haruki 文中选用了一些主流的机器学习模型测试预测结果,最终选择随机森林。
参考了他的模型结果,随机森林是多颗独立的树,在改进的时候选用了这两年比赛中效果比较显著的XGBoost。
xgboost通俗理解,以xgboost回归为例
单个决策树很难保障准确率,假设单个决策树预测为y’,真实值为y,于是产生了一个误差y-y',
xgboost针对这个误差又建立了一棵决策树,分析误差产生的原因,从而弥补这个误差,新的决策树又会产生一个误差,那么继续建立一棵决策树,如此迭代下去,这就是xgboost的大致过程。
这个过程好比我们写代码,先大致写个框架,运行一下,看看哪不