机器学习算法

最新推荐文章于 2022-09-12 09:25:44 发布

望长安于日下

最新推荐文章于 2022-09-12 09:25:44 发布

阅读量131

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/qq_26884501/article/details/115078946

版权

本文详细介绍了机器学习中的Bootstrap、Bagging、Random Forest和GBDT等集成学习方法，重点讨论了GBDT的原理、优点与局限性。此外，还对比了GBDT与Random Forest、XGBoost的差异，以及正则化的重要性。XGBoost作为优化版的GBDT，其高效性、优化策略和对稀疏数据的处理能力得到了强调。文章最后提及了SVM的概念、核函数的应用以及与LR的异同。

摘要由CSDN通过智能技术生成

1、Bootstrap

Bootstrap Method:在统计学中，Bootstrap从原始数据中抽取子集，然后分别求取各个子集的统计特征，最终将统计特征合并。

2、Bagging

Bagging(Bootstrap Aggregating)应用了 Bootstrap的思想，从Training Set抽取k次subset，分别用来训练k个单独的模型，然后用这k个模型来做预测。最终，如果是Regression问题，则Average k个模型的输出；如果是Classification问题，则进行Majority Vote。

3、Random Forest

Random Forest也是对Training Set进行k次随机抽样、种树、再求取平均（Majority Vote）。Decision Tree在每次分割时，会考虑所有的feature，然后选择最佳分割点；Random Forest为了增加随机性，在分割时使用1/3*D( regression), sqrt(D)(classification)的features来做选择，由此也减少了属于树之间的关联性。**
在这里插入图片描述

所以说，Bagged Decision Tree只有一个参数，那就是树的数量；而Random Forest却有两个参数：树的数量，以及分割时feature的数量。

6. GBDT

GBDT(Gradient Boosting Decision Tree)，全名叫梯度提升决策树，使用的是Boosting的思想。

6.5.1 Boosting思想

Boosting方法训练基分类器时
1.采用串行的方式，
2.各个基分类器之间有依赖。
它的基本思路是将基分类器层层叠加，每一层在训练的时候，对前一层基分类器分错的样本，给予更高的权重。测试时，根据各层分类器的结果的加权得到最终结果。

Bagging与Boosting的串行训练方式不同，Bagging方法在训练过程中，
1.各基分类器之间无强依赖，
2.可以进行并行训练。

6.5.2 GBDT原来是这么回事

GBDT的原理很简单，就是所有弱分类器的结果相加等于预测值，然后下一个弱分类器去拟合误差函数对预测值的残差(这个残差就是预测值与真实值之间的误差)。当然了，它里面的弱分类器的表现形式就是各棵树。
GBDT需要将多棵树的得分累加得到最终的预测得分，且每一次迭代，都在现有树的基础上，增加一棵树去拟合前面树的预测结果与真实值之间的残差。

6.2. 梯度提升和梯度下降的区别和联系是什么？

同:两者都是在每一轮迭代中，利用损失函数相对于模型的负梯度方向的信息来对当前模型进行更新
异:
梯度提升：梯度提升中，模型并不需要进行参数化表示，而是直接定义在函数空间中，从而大大扩展了可以使用的模型种类
梯度下降：梯度下降中，模型是以参数化形式表示，从而模型的更新等价于参数的更新

6.3. GBDT的优点和局限性有哪些？

6.3.1 优点

预测阶段的计算速度快，树与树之间可并行化计算。
在分布稠密的数据集上，泛化能力和表达能力都很好，这使得GBDT在Kaggle的众多竞赛中，经常名列榜首。
采用决策树作为弱分类器使得GBDT模型具有较好的解释性和鲁棒性，能够自动发现特征间的高阶关系，并且也不需要对数据进行特殊的预处理如归一化等。

6.3.2 局限性

GBDT在高维稀疏的数据集上，表现不如支持向量机或者神经网络。
GBDT在处理文本分类特征问题上，相对其他模型的优势不如它在处理数值特征时明显。
训练过程需要串行训练，只能在决策树内部采用一些局部并行的手段提高训练速度。

6.4. RF(随机森林)与GBDT之间的区别与联系

相同点：

都是由多棵树组成，最终的结果都是由多棵树一起决定。

不同点：

组成随机森林的树可以分类树也可以是回归树，而GBDT只由回归树组成
组成随机森林的树可以并行生成，而GBDT是串行生成
随机森林的结果是多数表决表决的，而GBDT则是多棵树累加之和
随机森林对异常值不敏

最低0.47元/天解锁文章

望长安于日下

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
机器学习算法

目录1、Bootstrap2、Bagging3、Random Forest4、贝叶斯公式4.1预习4.2 条件概率的意义4.3 条件概率公式4.4 贝叶斯公式4.5 贝叶斯与朴素贝叶斯6. GBDT6.5.1 Boosting思想6.5.2 GBDT原来是这么回事6.2. 梯度提升和梯度下降的区别和联系是什么？6.3. **GBDT**的优点和局限性有哪些？6.3.1 优点6.3.2 局限性6.4. RF(随机森林)与GBDT之间的区别与联系7. Xgboost目录7.1. 什么是XGBoost7.1.1
复制链接

扫一扫

专栏目录