决策树和随机森林

最新推荐文章于 2023-04-23 23:23:31 发布

quick刀斩乱麻

最新推荐文章于 2023-04-23 23:23:31 发布

阅读量158

点赞数

分类专栏：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_34276652/article/details/108415995

版权

机器学习专栏收录该内容

10 篇文章 0 订阅

订阅专栏

信息熵：衡量一个随机变量取值不确定性的指标，信息熵越大则不确定性越大，信息熵越小则不确定性越小

条件熵：已知随机变量X的情况下随机变量Y的不确定性

信息增益：给定X能够使随机变量Y的确定性增加的程度（信息熵-条件熵）

构建过程：

计算当前节点的信息熵及各个特征的条件熵
计算各个特征的信息增益
确定当前节点的分支特征

何时停止分支：某个节点的信息熵小于某个阈值时，停止对该节点的分支操作，将该节点作为叶子节点；叶子节点的样本集中，占比最大的一类为该叶子结点的类别
CART作为分类树时的特征选择指标是基尼系数，作为回归树时的特征选择指标是划分后子节点的方差

剪枝：deal with overfitting (决策树的分支过多）

决策树的划分选择

1.信息增益：ID3 （Iterative Dichotomiser)

信息熵用以度量样本集合纯度；信息熵的值越小，此样本空间的纯度越高

信息增益：使用属性a对样本集合进行划分，即产生分支结点，样本集合的信息熵 - 分支结点的信息熵的加权和（由各分支结点样本数计算权重）；信息增益越大，意味着用该属性来进行划分所获得的“纯度提升”越大

2.增益率: C4.5

增益率：信息增益 / 该属性的intrinsic value

信息增益准则对可取值数目较多的属性有偏好,而增益率准则对可取值数目少的属性有所偏好；因此C4.5并非直接选择增益率最大的候选划分属性，而是先从候选划分属性中找出信息增益高于平均水平的属性，再从中选择增益率最高的

3.基尼系数：CART

Gini impurity：从样本集合中随机抽取两个样本，其类别标记不一致的概率；基尼值越小，样本集的纯度越高；因此优先选择可以使划分后基尼值最小的属性作为最优划分属性

假设有K个类别，第k个类别的概率为 $p_{k}$ ，则基尼系数表达式为： $Gini(p)=\sum_{k=1}^{K}p_{k}(1-p_{k})=1-\sum_{k=1}^{K}p_{k}^{2}$

4.方差法：回归树

决策树的剪枝处理

1.预剪枝：

决策树生成过程中，每个结点划分前进行估计

2.后剪枝：

先从训练集生成一棵完整的决策树，然后自底向上地对非叶结点进行考察

3.泛化能力评估：

留出法：预留一部分数据用作“验证集“

accuracy

sklearn分类树参数

criterion：默认gini，即Gini impurity；也可以选择entropy，即information gain

max_depth：树的最大深度；默认none，即分裂到全部的pure leaves或全部的leaves的样本数包含少于min_samples_split；深度过小欠拟合，过大过拟合（一般在10以内）

min_samples_split：分裂一个内部结点要求的最小样本数；默认2；样本数过大欠拟合，过小过拟合

min_samples_leaf：成为一个叶子结点要求的最小样本数；默认1；样本数过大欠拟合，过小过拟合

max_features: 分裂时考虑的最大特征数；默认none，即对全部特征进行切分

max_leaf_nodes：总的叶子结点数量；默认none，即unlimted number of leaf nodes

Reference

quick刀斩乱麻

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
决策树和随机森林

信息熵：衡量一个随机变量取值不确定性的指标，信息熵越大则不确定性越大，信息熵越小则不确定性越小条件熵：已知随机变量X的情况下随机变量Y的不确定性信息增益：给定X能够使随机变量Y的确定性增加的程度（信息熵-条件熵）构建过程：计算当前节点的信息熵及各个特征的条件熵计算各个特征的信息增益确定当前节点的分支特征何时停止分支：某个节点的信息熵小于某个阈值时，停止对该节点的分支操作，将该节点作为叶子节点；叶子节点的样本集中，占比最大的一类为该叶子结点的类别算法异同：C4.5划分节点时采用的
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。