决策树

最新推荐文章于 2022-07-20 15:23:06 发布

persist_gd

最新推荐文章于 2022-07-20 15:23:06 发布

阅读量128

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/m0_37712876/article/details/107043285

版权

机器学习专栏收录该内容

2 篇文章 0 订阅

订阅专栏

本文深入探讨了决策树中的关键概念，包括信息熵、条件熵、信息增益、KL散度和交叉熵在分类树中的作用。接着介绍了基尼指数和CART树的原理，以及如何利用它们进行数据纯度评估和构建二叉树。此外，还讨论了回归树的构建，特别是如何利用标准方差和变异系数来指导树的分裂和预测值的计算。

摘要由CSDN通过智能技术生成

1.分类树

1.1.1信息熵

定义随机事件 $X = x$ 的自信息为
$I(X=x)=- log_aP(X=x)$

注， $a = 2$ 时 $H (X)$ 单位为比特, $a = e$ 时 $H (X)$ 单位为奈特

对所有自信息求均值即得到信息熵,它是用来衡量信息不确定性的指标，数值越大，不确定性越大
$\begin{aligned} H(X)&=\sum_{i=1}^nP(X=x_i)I(X=x_i)\\ &=- \sum_{i=1}^nP(X=x_i)log_aP(X=x_i)\\ &=\mathbb{E}_{X \sim P} log P(x) \end{aligned}$

$a = 2$ 是一般情况

1.1.2条件熵

顾名思义，即为条件概率的信息熵,固定条件 $X = x$ 求 $H (Y ∣ X = x)$
$\begin{aligned} H(Y|X=x)&=\sum_{i=1}^nP(Y=y_i|X=x)I(Y=y_i|X=x)\\ &=- \sum_{i=1}^nP(Y=y_i|X=x)log_2P(Y=y_i|X=x) \end{aligned}$

1.1.3信息增益

代表在一个条件下，信息不确定性的减少程度
$I (Y, X) = H (Y) - H (Y, X)$

我们用信息增益最大的条件在决策树中分支

1.1.4KL散度

衡量数据真实分布 $P (x)$ 和模型预测分布 $Q (x)$ 的差异程度
$D_{KL}(P||Q)=\mathbb{E}_{X \sim P} [log \frac{P(x)}{Q(x)}]=\mathbb{E}_{X \sim P} [log P(x)-logQ(x)]$

KL散度是非负数的

1.1.5交叉熵

$H(P,Q)=H(P)+D_{KL}(P||Q)=-\mathbb{E}_{X \sim P} logQ(x)$

常用损失函数

1.2.1基尼指数

基尼指数也叫基尼不纯度，表示在样本集合中一个随机样本被分错的概率，指数越小，被分错的概率越小，集合的纯度越高。
$Gini(p)=\sum_{i=1}^np_i(1-p_i)=1-\sum_{i=1}^np_i^2$

$p_i$ 表示选中第 $i$ 个类别的概率

1.2.2CART树

CART树是二叉树,对于一个具有多个取值(超过2个)的特征,需要计算以每一个取值作为划分点,计算样本D划分后自己的纯度 $G i n i (D, i)$ ，从所有的可能的划分中找到 $G i n i (D, i)$ 最小的划分，即使目标划分。

2.回归树

树模型处理回归问题，叶子节点输出预测值，然后对各叶子节点线性组合求均值。回归树的分支标准为标准方差回归树使用某一特征将原集合分为多个子集，用标准方差衡量子集中的元素是否相近，越小表示越相近。
$\overline x = \frac{\sum_{i=1}^n x}{n}$
$\sqrt\frac{\sum_{i=1}^n ( x- \overline x)^2}{n-1}$
$\frac{ S}{\overline x}$
$S(T,X)=\sum_{c \in X} P(c)S(c)$
$S D R (T, X) = S (T) - S (T, X)$

$c v$ 是变异系数，决定是否继续分支， $S D R (T, X)$ 是标准差增益，选定值最大的进行分类。

persist_gd

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
决策树

1.分类树1.1.1信息熵定义随机事件X=xX=xX=x的自信息为I(X=x)=−logaP(X=x)I(X=x)=- log_aP(X=x)I(X=x)=−logaP(X=x)注，a=2a=2a=2时H(X)H(X)H(X)单位为比特,a=ea=ea=e时H(X)H(X)H(X)单位为奈特对所有自信息求均值即得到信息熵,它是用来衡量信息不确定性的指标，数值越大，不确定性越大H(X)=∑i=1nP(X=xi)I(X=xi)=−∑i=1nP(X=xi)logaP(X=xi)=EX∼Plo
复制链接

扫一扫

专栏目录