决策树面试主要知识点

rushnlp

于 2021-08-23 15:11:02 发布

阅读量145

点赞数

文章标签：机器学习决策树

本文链接：https://blog.csdn.net/qq_41228082/article/details/119865578

版权

决策树如何分裂？
信息增益公式ID3：
在这里插入图片描述
信息增益率公式c4.5：

基尼系数：

决策树过拟合？
控制模型复杂度
1.控制树的深度
2.把不重要的特征进行剪枝操作
3.正则化方法
集成算法是将多个弱分类器集成起来的强分类器
弱分类器可以理解为欠拟合的分类器，弱指的是对于全部数据的泛化能力弱，而对于某些数据比较准确。
bagging特点：
1.基于数据随机重抽样的分类器构建
2.可以并行
3.弱分类器之间几乎相互无关
典型 RF
booosting特点：
1.只能串行
2.弱分类器之间强相关
3.结果是所有分类器的加权求和
boosting是基于上一个分类器分类错误的数据进行模型训练校正。
典型 adaboost xgboost
bagging减少variance，而boosting是减少bias
Bagging对样本重采样，对每一重采样得到的子样本集训练一个模型，最后取平均。由于子样本集的相似性以及使用的是同种模型，因此各模型有近似相等的bias和variance（事实上，各模型的分布也近似相同，但不独立）。另一方面，若各子模型独立，则有，此时可以显著降低variance。若各子模型完全相同，则此时不会降低variance。bagging方法得到的各子模型是有一定相关性的，属于上面两个极端状况的中间态，因此可以一定程度降低variance。
boosting是在sequential地最小化损失函数，其bias自然逐步下降。但由于是采取这种sequential、adaptive的策略，各子模型之间是强相关的，于是子模型之和并不能显著降低variance。所以说boosting主要还是靠降低bias来提升预测精度。

rushnlp

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
决策树面试主要知识点

决策树如何分裂？信息增益公式ID3：信息增益率公式c4.5：基尼系数：决策树过拟合？控制模型复杂度1.控制树的深度2.把不重要的特征进行剪枝操作3.正则化方法集成算法是将多个弱分类器集成起来的强分类器弱分类器可以理解为欠拟合的分类器，弱指的是对于全部数据的泛化能力弱，而对于某些数据比较准确。bagging特点：1.基于数据随机重抽样的分类器构建2.可以并行3.弱分类器之间几乎相互无关典型 RFbooosting特点：1.只能串行2.弱分类器之间强相关3.结果是所
复制链接

扫一扫