决策树算法梳理

最新推荐文章于 2022-12-05 09:08:18 发布

lqq6315

最新推荐文章于 2022-12-05 09:08:18 发布

阅读量189

点赞数 2

本文链接：https://blog.csdn.net/lqq6315/article/details/88131818

版权

1.信息论基础

熵：又称为自信息，度量随机变量的不确定性。（纯度）
联合熵：联合熵是描述一对随机变量平均所需要的信息量
条件熵：H(Y|X)表示在已知随机变量 X 的条件下，随机变量 Y 的不确定性
信息增益：以某特征划分数据集前后的熵的差值
基尼不纯度：指将来自集合中的某种结果随机应用在集合中，某一数据项的预期误差率。

2.决策树的不同分类算法（ID3算法、C4.5、CART分类树）的原理及应用场景

ID3算法：在决策树各结点上运用信息增益准则选择特征，递归的构建决策树。
C4.5算法：使用信息增益比作为划分训练数据集的特征，可以校正ID3算法偏向于选择取值较多的特征这一问题。
CART：CART是一棵二叉树，采用二元切分法，每次把数据切成两份，分别进入左子树、右子树。而且每个非叶子节点都有两个孩子，所以CART的叶子节点比非叶子多1。相比ID3和C4.5，CART应用要多一些，既可以用于分类也可以用于回归。

3.回归树原理

回归树总体流程类似于分类树，不过在每个节点（不一定是叶子节点）都会得一个预测值，以年龄为例，该预测值等于属于这个节点的所有人年龄的平均值。分枝时穷举每一个feature的每个阈值找最好的分割点，但衡量最好的标准不再是最大熵，而是最小化均方差–即（每个人的年龄-预测年龄）^2 的总和 / N，或者说是每个人的预测误差平方和除以 N。这很好理解，被预测出错的人数越多，错的越离谱，均方差就越大，通过最小化均方差能够找到最靠谱的分枝依据。分枝直到每个叶子节点上人的年龄都唯一（这太难了）或者达到预设的终止条件（如叶子个数上限），若最终叶子节点上人的年龄不唯一，则以该节点上所有人的平均年龄做为该叶子节点的预测年龄。

4.决策树防止过拟合手段

剪枝（预剪枝和后剪枝）
预剪枝是指在决策树生成过程中，对每个结点在划分前先进行估计，若当前结点的划分不能带来决策树泛化能力提升，则停止划分并将当前节点标记为叶结点；后剪枝则是先从训练集生成一颗完整的决策树，然后自底向上地对非叶结点进行考察，若将该节点对应的子树替换为叶结点能带来决策树泛化能力提升，则将该子树替换为叶结点。

5.模型评估

评估指标有分类准确度、召回率、虚警率和精确度等。
评估方法有保留法、随机二次抽样、交叉验证和自助法等。

6.sklearn参数详解，Python绘制决策树

sklearn.tree.DecisionTreeClassifier
        (criterion='gini', splitter='best', max_depth=None, min_samples_split=2, 
        min_samples_leaf=1,min_weight_fraction_leaf=0.0, max_features=None, 
        random_state=None, max_leaf_nodes=None, min_impurity_decrease=0.0, 
        min_impurity_split=None, class_weight=None, presort=False)

criterion:特征选择的标准，有信息增益和基尼系数两种，使用信息增益的是ID3和C4.5算法（使用信息增益比），使用基尼系数的CART算法，默认是gini系数。
splitter:特征切分点选择标准，决策树是递归地选择最优切分点，spliter是用来指明在哪个集合上来递归，有“best”和“random”两种参数可以选择，best表示在所有特征上递归，适用于数据集较小的时候，random表示随机选择一部分特征进行递归，适用于数据集较大的时候。
max_depth:决策树最大深度，决策树模型先对所有数据集进行切分，再在子数据集上继续循环这个切分过程，max_depth可以理解成用来限制这个循环次数。
min_samples_split:子数据集再切分需要的最小样本量，默认是2，如果子数据样本量小于2时，则不再进行下一步切分。如果数据量较小，使用默认值就可，如果数据量较大，为降低计算量，应该把这个值增大，即限制子数据集的切分次数。
min_samples_leaf:叶节点（子数据集）最小样本数，如果子数据集中的样本数小于这个值，那么该叶节点和其兄弟节点都会被剪枝（去掉），该值默认为1。
min_weight_fraction_leaf:在叶节点处的所有输入样本权重总和的最小加权分数，如果不输入则表示所有的叶节点的权重是一致的。
max_features:特征切分时考虑的最大特征数量，默认是对所有特征进行切分，也可以传入int类型的值，表示具体的特征个数；也可以是浮点数，则表示特征个数的百分比；还可以是sqrt,表示总特征数的平方根；也可以是log2，表示总特征数的log个特征。
random_state:随机种子的设置，与LR中参数一致。
max_leaf_nodes:最大叶节点个数，即数据集切分成子数据集的最大个数。
min_impurity_decrease:切分点不纯度最小减少程度，如果某个结点的不纯度减少小于这个值，那么该切分点就会被移除。
min_impurity_split:切分点最小不纯度，用来限制数据集的继续切分（决策树的生成），如果某个节点的不纯度（可以理解为分类错误率）小于这个阈值，那么该点的数据将不再进行切分。
class_weight:权重设置，主要是用于处理不平衡样本，与LR模型中的参数一致，可以自定义类别权重，也可以直接使用balanced参数值进行不平衡样本处理。
presort:是否进行预排序，默认是False，所谓预排序就是提前对特征进行排序，我们知道，决策树分割数据集的依据是，优先按照信息增益/基尼系数大的特征来进行分割的，涉及的大小就需要比较，如果不进行预排序，则会在每次分割的时候需要重新把所有特征进行计算比较一次，如果进行了预排序以后，则每次分割的时候，只需要拿排名靠前的特征就可以了。
来源：(https://mp.weixin.qq.com/s?__biz=MzI2MjE3OTA1MA==&idx=1&mid=2247484903&scene=45&sn=e3c3af7b600854c65df01cf93d8a21f4)

lqq6315

关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
决策树算法梳理

1.信息论基础熵：又称为自信息，度量随机变量的不确定性。（纯度）联合熵：联合熵是描述一对随机变量平均所需要的信息量条件熵：H(Y|X)表示在已知随机变量 X 的条件下，随机变量 Y 的不确定性信息增益：以某特征划分数据集前后的熵的差值基尼不纯度：指将来自集合中的某种结果随机应用在集合中，某一数据项的预期误差率。2.决策树的不同分类算法（ID3算法、C4.5、CART分类树）的原理及应...
复制链接

扫一扫