机器学习之随机森林和GBDT的区别以及Xgboost和GBDT的区别

45 篇文章 1 订阅
29 篇文章 0 订阅

随机森林:
理解:多棵决策树(CART树)https://blog.csdn.net/blank_tj/article/details/82081002组合而成,分类问题:每棵树投票找最高票;回归问题:每棵树的值求和取平均。

特点:随机森林基于Bagging https://blog.csdn.net/blank_tj/article/details/82229322,所以每次训练随机从总数据DD中选择NN条数据,N<DN<D。每次选择的特征是从总特数PP中,随机选择QQ个特征,通常Q<PQ<P。重复MM次,生成MM棵树。 
通过这种每次随机数据,随机特征的方式进行建树。

优点: 
1)训练速度快,泛化能力强,可并行建树,因为树与树相互独立; 
2)能学到特征之间的相互影响,因为每次选择的特征不同; 
3)可处理高维特征,因为不需要特征选择,用随机选择; 
4)相比SVMSVM,不是很怕特征缺失,因为随机特征; 
6)可以反馈哪些特征的权重,价值比较高。

随机森林和GBDT区别
1)随机森林采用的baggingbagging思想,而GBDTGBDT采用的boostingboosting思想。 
2)组成随机森林的树可以是分类树,也可以是回归树;而GBDTGBDT只能由回归树组成。 
3)组成随机森林的树可以并行生成;而GBDTGBDT只能是串行生成。 
4)对于最终的输出结果而言,随机森林采用多数投票等;而GBDTGBDT则是将所有结果累加起来,或者加权累加起来。 
5)随机森林对异常值不敏感;GBDTGBDT对异常值非常敏感。 
6)随机森林对训练集一视同仁;GBDTGBDT是基于权值的弱分类器的集成。 
7)随机森林是通过减少模型方差提高性能;GBDTGBDT是通过减少模型偏差提高性能。

GBDT和Xgboost区别
1)GBDTGBDT以CARTCART作为基分类器,xgboostxgboost还支持线性分类器,这个时候xgboostxgboost相当于带L1L1和L2L2正则化项的逻辑斯蒂回归(分类问题)或者线性回归(回归问题)。 
2)GBDTGBDT在优化时只用到一阶导数信息,xgboostxgboost则对代价函数进行了二阶泰勒展开,同时用到了一阶和二阶导数。 
3)xgboostxgboost在代价函数里加入了正则项,用于控制模型的复杂度。正则项降低了模型的variancevariance,使学习出来的模型更加简单,防止过拟合。 
4)随机特征选择。xgboostxgboost借鉴了随机森林的做法,支持列抽样,不仅能降低过拟合,还能减少计算,这也是xgboostxgboost异于GBDTGBDT的一个特性。对于特征的值有缺失的样本,xgboostxgboost可以自动学习出它的分裂方向。 
5)信息增益计算不同,GBDTGBDT是ginigini,xgboostxgboost是优化推导公式。 
6)xgboostxgboost的特征列排序后以块的形式存储在内存中,在迭代中可以重复使用;虽然boostingboosting算法在构建树迭代必须串行,但是在处理每个特征列时可以做到并行。因为:xgboostxgboost在训练之前,预先对数据进行了排序,然后保存为blockblock结构,后面的迭代中重复地使用这个结构,大大减小计算量。这个blockblock结构也使得并行成为了可能,在进行节点的分裂时,需要计算每个特征的增益,最终选增益最大的那个特征去做分裂,那么各个特征的增益计算就可以开多线程进行。
 

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值