关于随机森林和决策树的面试问题

Y_蒋林志

已于 2022-03-15 22:09:53 修改

阅读量650

点赞数 1

分类专栏：机器学习基础课笔记文章标签：决策树剪枝机器学习算法

于 2021-07-20 20:47:42 首次发布

本文链接：https://blog.csdn.net/qq_37233260/article/details/118943260

版权

机器学习基础课笔记专栏收录该内容

20 篇文章 6 订阅

订阅专栏

前言

介绍几个关于随机森林和决策树的面试问题，并给出参考答案。

1. 随机森林为何可以提高正确率, 且降低过拟合程度?

随机森林是一种集成算法（Ensemble Learning），它属于 Bagging 类型，通过组合多个弱分类器，最终结果通过多数投票或取均值。由于在生成每颗树的时候，每颗树仅是选取少数特征，而且对于样本也是随机有放回的选择，这样的随机性降低了过拟合程度。而且由于采取了集成算法，本身精度就比单个算法好。

2. 决策树后剪枝可以怎么操作?

为了提高决策树的泛化能力，需要对树进行剪枝 (Pruning)，把过于细分的叶结点（通常是数据量过少导致噪声数据的影响增加）去掉而回退到其父结点或更高的结点。
预剪枝：在每一次实际对结点进行进一步划分之前，先采用验证集的数据来验证如果划分是否能提高划分的准确性。如果不能，就把结点标记为叶结点并退出进一步划分；如果可以就继续递归生成节点。
后剪枝：后剪枝则是先从训练集生成一颗完整的决策树，然后自底向上地对非叶结点进行考察，若将该结点对应的子树替换为叶结点能带来泛化性能提升，则将该子树替换为叶结点。

3. 决策树是几叉树与这颗决策树的分类数目有什么关系?

没有关系，决策树分为几叉仅跟特征有关系。

4. 如果持征是连续的, 如何得到划分点?

连续特征可以通过阈值来分，以基尼系数或信息增益作为度量，选择使度量值最大的候选划分点作为最佳划分点。

5. 请解释Gini系数为何可以用于分类标准。

因为也可以类似有信息增益的功效。信息增益也就是划分前的熵比划分后的熵的差值，差值越大说明下降越多。但是信息增益偏向值个数多的属性，所以提出了信息增益率，信息增益率是基于比值，但是就意味着偏向于个数少的属性，因为属性数目越小，固有值越大。基尼值是指从一个样本集中选择2个样本，这2个样本不属于同一类的概率，可以计算通过属性a划分后各样本集的基尼值和权重的积的和来衡量选择属性的判据。

推荐两篇总结决策树的博客，部分答案受此启发：

https://www.cnblogs.com/jiading/articles/12897972.html
https://blog.csdn.net/z962013489/article/details/80024574/

Y_蒋林志

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
关于随机森林和决策树的面试问题

前言介绍几个关于随机森林和决策树的面试问题，并给出参考答案。1. 随机森林为何可以提高正确率, 且降低过拟合程度?随机森林是一种集成算法（Ensemble Learning），它属于 Bagging 类型，通过组合多个弱分类器，最终结果通过多数投票或取均值。由于在生成每颗树的时候，每颗树仅是选取少数特征，而且对于样本也是随机有放回的选择，这样的随机性降低了过拟合程度。而且由于采取了集成算法，本身精度就比单个算法好。2. 决策树后剪枝可以怎么操作?为了提高决策树的泛化能力，需要对树进行剪枝 (Pru
复制链接

扫一扫