决策树算法[3]

最新推荐文章于 2024-05-03 22:57:08 发布

DisguiseR6

最新推荐文章于 2024-05-03 22:57:08 发布

阅读量116

点赞数

分类专栏： # 机器学习算法

本文链接：https://blog.csdn.net/qq_25614773/article/details/88200734

版权

机器学习算法专栏收录该内容

8 篇文章 0 订阅

订阅专栏

决策树算法梳理

文章目录

决策树算法梳理

1 信息论基础

熵

如果一个随机变量 $X$ 的可能取值为 $X = {x1, x2,…, xk}$ ，其概率分布为 $P (X = x i) = p i （ i = 1, 2, . . ., n ）$ ，则随机变量X的熵定义为：

$H(X)=-\sum_xp(x)\log p(x)=\sum_xp(x)\log \frac{1}{p(x)}$
由定义知，当随机变量为均匀分布时，熵最大,且 $\leq H(X)\leq\log n$

熵（entropy）:表示随机变量不确定性的度量（熵越大，随机变量的不确定性就越大）
联和熵

将一维随机变量分布推广到多维随机变量分布
$H(X,Y)=-\sum_{x,y}p(x,y)\log p(x,y)=-\sum_{i=1}^n\sum_{i=1}^mp(x_i,y_i)\log p(x_i,y_i)$
条件熵

条件熵 $H (Y ∣ X)$ 表示在已知随机变量 X 的条件下随机变量$ Y$ 的不确定性 .随机变量 $X$ 给定的条件下随机变量Y的条件熵 $H (Y ∣ X)$ ,定义为： $X$ 给定的条件下 $Y$ 的条件概率分布的熵对 $X$ 的数学期望
$H(Y|X)=\sum_xp(x)H(Y|X=x)\\=\ \ -\sum_xp(x)\sum_yp(y|x)\log p(y|x)\\=-\sum_x\sum_yp(x,y)\log p(y|x)$
条件熵 $H (Y ∣ X)$ 相当于联合熵 $H (X, Y)$ 减去单独的熵 $H (X)$ ,即：
$H (Y ∣ X) = H (X, Y) - H (X)$

证明：
$\begin{aligned} H(X,Y) &= -\sum_{x,y}p(x,y)\log p(x,y) \\&=-\sum_{x,y}p(x,y)\log p(x)p(y|x) \\&=-\sum_{x,y}p(x,y)\log p(y|x)-\sum_{x,y}p(x,y)\log p(x) \\ &= H(Y|X)-\sum_x\sum_yp(x,y)\log p(x)\\&=H(Y|X) - \sum_x\log p(x)\sum_y\log p(x,y) \\&=H(Y|X) - H(X) \end{aligned}$

描述 X 和 Y 所需的信息是描述 X 自己所需的信息,加上给定 X 的条件下具体化 Y 所需的额外信息

信息增益

表示：得知特征X的信息而使得类Y的信息的不确定性减少的程度

定义：特征A对训练数据D的信息增益g(D,A),定义为集合D的经验熵H(D)与特征A给定条件下D的经验条件熵H(D|A)之差：
$g (D, A) = H (D) - H (D ∣ A)$
信息增益在决策树算法中是用来选择特征的指标，信息增益越大，则这个特征的选择性越好，在概率中定义为：待分类的集合的熵和选定某个特征的条件熵之差（这里只的是经验熵或经验条件熵，由于真正的熵并不知道，是根据样本计算出来的）
信息增益比

信息增益作为划分训练数据集的特征，存在偏向于选择取值较多的特征的问题

特征A对训练数据D的信息增益比 $g_R(D,A)$ 定义为：

其信息增益 $g (D, A)$ 与训练数据集D关于特征A的值得熵 $H_A(D)$ 之比
$g_R(D,A) = \frac{g(D,A)}{H_A(D)}$
其中：
$H_A(D) = -\sum_{ji=1}^n\frac{|D_i|}{|D|}\log_2 \frac{|D_i|}{|D|} \ \ n是特征取值的个数$
基尼不纯度

从一个数据集中随机选取子项，度量其被错误的划分到其他组里的概率。(书上解释)

一个随机事件变成它的对立事件的概率（简单理解）
$\sum_{k=1}^KP_k(1-P_k) = 1-\sum_{k=1}^KP_k^2$

参考：[详解机器学习中的熵、条件熵、相对熵和交叉熵]

2 .决策树的不同分类算法（ID3算法、C4.5、CART分类树）的原理及应用场景

ID3算法

在决策树上各个节点上应用信息增益准则选择特征，递归地构建决策
C4.5

C4.5算法与ID3算法相似，C4.5算法对ID3算法进行了改进，C4.5在生成的过程中，用信息增益比来进行选择特征
CART分类树

以基尼指数最小化准则进行特征选择

3 回归树原理

回归树是可以用于回归的决策树模型，一个回归树对应着输入空间（即特征空间）的一个划分以及在划分单元上的输出值.与分类树不同的是，回归树对输入空间的划分采用一种启发式的方法，会遍历所有输入变量，找到最优的切分变量j和最优的切分点s，即选择第j个特征 $x_j$ 和它的取值s将输入空间划分为两部分，然后重复这个操作。

参考：决策树(分类树、回归树）

回归树是采用最大均方误差来划分节点，并且每个节点样本的均值作为测试样本的回归预测值；而分类树是采用信息增益或者是信息增益比来划分节点，每个节点样本的类别情况投票决定测试样本的类别。我们可以看到，这两者的区别主要在于划分方式与工作模式。回归树采用最大均方误差这种对数据精确处理的方式，输出连续变量，可以更好地给我们的数据进行预测；而分类树使用一个非常宽泛的信息增益这个变量，更好的从整体把握这个数据集的分类

参考：经典的决策树算法

4 决策树防止过拟合手段

剪枝(pruning)
1. 预剪枝：预剪枝就是在构造决策树的过程中，先对每个结点在划分前进行估计，若果当前结点的划分不能带来决策树模型泛华性能的提升，则不对当前结点进行划分并且将当前结点标记为叶结点。
2. 后剪枝：后剪枝就是先把整颗决策树构造完毕，然后自底向上的对非叶结点进行考察，若将该结点对应的子树换为叶结点能够带来泛华性能的提升，则把该子树替换为叶结点

参考：机器学习(六)决策树优化-剪枝

5 模型评估

6 sklearn 参数详解，python绘制决策树

'''
scikit-learn中有两类决策树，它们均采用优化的CART决策树算法。
'''
from sklearn.tree import DecisionTreeRegressor
'''
回归决策树
'''
DecisionTreeRegressor(criterion="mse",
                         splitter="best",
                         max_depth=None,
                         min_samples_split=2,
                         min_samples_leaf=1,
                         min_weight_fraction_leaf=0.,
                         max_features=None,
                         random_state=None,
                         max_leaf_nodes=None,
                         min_impurity_decrease=0.,
                         min_impurity_split=None,
                         presort=False)
'''
方法：
1.fit(X,y):训练模型。
2.predict(X):预测。
'''
 
from sklearn.tree import DecisionTreeClassifier
'''
分类决策树
'''
DecisionTreeClassifier(criterion="gini",
                 splitter="best",
                 max_depth=None,
                 min_samples_split=2,
                 min_samples_leaf=1,
                 min_weight_fraction_leaf=0.,
                 max_features=None,
                 random_state=None,
                 max_leaf_nodes=None,
                 min_impurity_decrease=0.,
                 min_impurity_split=None,
                 class_weight=None,
                 presort=False)
'''
方法:
1.fit(X,y):训练模型。
2.predict(X):预测
3.predict_log_poba(X):预测X为各个类别的概率对数值。
4.predict_proba(X):预测X为各个类别的概率值。
'''

参考：机器学习sklearn中决策树模型参数释义

DisguiseR6

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
决策树算法[3]

决策树算法梳理1 信息论基础熵如果一个随机变量XXX的可能取值为X=x1,x2,…,xkX = {x1, x2,…, xk}X=x1,x2,…,xk，其概率分布为P(X=xi)=pi（i=1,2,...,n）P(X = xi) = pi（i = 1,2, ..., n）P(X=xi)=pi（i=1,2,...,n），则随机变量X的熵定义为：H(X)=−∑xp(x)log⁡p(x)=∑x...
复制链接

扫一扫