机器学习提纲

最新推荐文章于 2023-05-16 20:51:25 发布

嘀嗒嘀嘀嗒嘀

最新推荐文章于 2023-05-16 20:51:25 发布

阅读量221

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ACBattle/article/details/102649115

版权

面试总结专栏收录该内容

11 篇文章 0 订阅

订阅专栏

RF和GBDT的区别

集成
并行
偏差+方差
重要性计算（GBDT衡量特征j的全局重要度通过：特征j在单颗树中的重要度的平均值来衡量，RF是通过置换检验，可放回抽样）

XGB和GBDT的区别

并行
二次泰勒展开
正则项
缺失值
采样
分裂选择计算：GBDT是gini系数，XGB是综合分割前后的分数增益+正则项。

lightgbm和XGB的区别

分裂策略：xgb做无差别分裂level-wise，后剪枝，lightgbm做leaf-wise分裂，前剪枝。减小分裂开销。
决策树算法：exact算法和直方图算法。
lightgbm的优势：
在这里插入图片描述

GBDT细节

决策树的建立。

Xgb细节

lightgbm细节

虽然是leaf-wise，但是可能树长的比较深，所以小数据集可能过拟合，因此参数中有树的深度的限制。
直方图用桶的索引标志
在这里插入图片描述
对大数据的优势在于：内存访问机制。大数据顺序访问比随机访问要更快，因为cache miss导致xgb慢很多。

传统的机器学习没办法输入离散值，首先转化为高维的二进制的01特征，浪费内存和时间。lightgbm直接使用离散特征分桶计算，速度快了8倍以上。

并行

数据并行，
特征并行，
投票并行，这是对数据并行的改进，
在这里插入图片描述
慢工出细活：小的学习率加大的迭代次数。

RF细节

特征随机性：每个结点分裂都需要随机选择特征
OOB的结果近似K折交叉验证，估计OOB时，只用到了随机森林中的部分树，使用了1/3的未用到的数据进行最后的评估。

嘀嗒嘀嘀嗒嘀

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习提纲

RF和GBDT的区别集成、并行、偏差+方差、重要性计算（GBDT衡量特征j的全局重要度通过：特征j在单颗树中的重要度的平均值来衡量，RF是通过置换检验，可放回抽样）...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。