xgboost需要理解:
(1)梯度提升树和xgboost的区别:梯度提升树,是y^n+1 = y^n + h(x)通过前面n颗树的结果,得出平均值;xgboost则是通过前面n棵树y^n+1 = y^n + f(x) 的预测分数,来得到新树
(2)决策树通过梯度下降方法类比的迭代训练新树 ,只要弱分类器的概率比瞎猜好,肯定提升后的树效果会训练效果更好
对于xgboost的模型训练后的指标主要是R^2(跟决策树一样)
xgboost的验证过程主要通过
xgboost由于趋近于决策树,所以它的决策指标是score(有各种各样的方式),可以通过交叉验证的方式,查看指定审核指标的大小,并通过mean()得出最终的平均值;并且设置CVS中的参数cv=5,指定了交叉验证集,取5,一份作为验证集,另外四份作为做训练集:
CVS(Xtrain,Ytrain,"mean_square_error")
波士顿数据集主要用来进行