前言
这是机器学习系列的第三篇文章,对于住房租金预测比赛的总结这将是最后一篇文章了,
比赛持续一个月自己的总结竟然也用了一个月,
牵强一点来说机器学习也将会是一个漫长
的道路,
后续机器学习的文章大多数以知识科普为主,
毕竟自己在机器学习这个领域是个
渣渣,自己学到的新知识点会分享给大家的。
前面的文章谈了谈这次比赛非技术方面的收获,对数据集的初步了解和特征工程的处理,
今天主要介绍这次使用的模型
--XGBOOST
。
XGBOOST
模型介绍
关于
xgboost
的原理网络上的资源很少,大多数还停留在应用层面,自己也是仅仅学习了
一点应用,关于原理可以参考陈天奇博士的这篇文章
https://xgboost.readthedocs.io/en/latest/tutorials/modell
。
简单介绍:
XGBOOST
是一个监督模型,
xgboost
对应的模型本质是一堆
CART
树。
用一堆树做预测,
就是将每棵树的预测值加到一起作为最终的预测值。
下图就是
CART
树和一堆
CART
树的
示例,用来判断一个人是否会喜欢计算机游戏:
第二张图明了如何用一堆
CART
树做预测,就是简单将各个树的预测分数相加。
参数介绍:
官方参数介绍看这里:
https://xgboost.readthedocs.io/en/latest/parameterl#general-parameters
比较重要的参数介绍:
“
reg:linear
”
–线性回归。
“
reg:logistic
”
–逻辑回归。
“
binary:logistic
”
–二分类的
逻辑回归问题,输出为概率。
“
binary:logitraw
”
–二分类的逻辑回归问题,输出的结果