机器学习提纲

RF和GBDT的区别

集成
并行
偏差+方差
重要性计算(GBDT衡量特征j的全局重要度通过:特征j在单颗树中的重要度的平均值来衡量,RF是通过置换检验,可放回抽样)

XGB和GBDT的区别

并行
二次泰勒展开
正则项
缺失值
采样
分裂选择计算:GBDT是gini系数,XGB是综合分割前后的分数增益+正则项。

lightgbm和XGB的区别

分裂策略:xgb做无差别分裂level-wise,后剪枝,lightgbm做leaf-wise分裂,前剪枝。减小分裂开销。
决策树算法:exact算法和直方图算法。
lightgbm的优势:
在这里插入图片描述

GBDT细节

决策树的建立。

Xgb细节

lightgbm细节

虽然是leaf-wise,但是可能树长的比较深,所以小数据集可能过拟合,因此参数中有树的深度的限制。
直方图用桶的索引标志
在这里插入图片描述
对大数据的优势在于:内存访问机制。大数据顺序访问比随机访问要更快,因为cache miss导致xgb慢很多。
在这里插入图片描述
传统的机器学习没办法输入离散值,首先转化为高维的二进制的01特征,浪费内存和时间。lightgbm直接使用离散特征分桶计算,速度快了8倍以上。

并行

数据并行,
特征并行,
投票并行,这是对数据并行的改进,
在这里插入图片描述
慢工出细活:小的学习率加大的迭代次数。
在这里插入图片描述

RF细节

特征随机性:每个结点分裂都需要随机选择特征
OOB的结果近似K折交叉验证,估计OOB时,只用到了随机森林中的部分树,使用了1/3的未用到的数据进行最后的评估。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值