综述:随机森林和决策树一样都可用于分类和回归,然而随机森林的模型结果往往优于决策树。 本篇文章主要讲解以上两种ML算法的原理和常用参数。
一、 原理
1.1 决策树
1.1.1决策树释义
决策树是一种非参数的有监督学习方法。本质上是从训练数据集中归纳出一组决策规则,用来解决分类和回 归问题,规则由:根结点、内部结点、叶子结点(标签)组成的树状图来呈现。
1.1.2 决策树算法要解决两个核心问题:
1、如何从数据表中找出最佳节点和最佳分枝?
1)“不纯度”是决策树特征选择的依据,通常用基尼系数或者信息熵(信息增益)来计算,基尼系数的取值在[0,0.5],信息熵的取值在[0,1]
2)我们需要知道:信息熵对不纯度更加敏感,信息熵作为指标时,计算速度缓慢一些,并且决策树生长的更加“精细”。如果有高维度数据和噪声数据,信息熵更容易过拟合,此时我们应选择基尼系数;反之,如果模型拟合程度低,在训练集和测试集上得分都较低时,我们应选择信息熵。
不过也并非绝对,机器学习的参数选择还是应由具体数据而定。
2、如何让决策树停止生长,防止过拟合?
1)限制树的深度;
2)限制在分支后每个子节点的样本量大小;
3)限制每个节点在分支前必须包含的样本量;