决策树

本文深入探讨了决策树中的关键概念,包括信息熵、条件熵、信息增益、KL散度和交叉熵在分类树中的作用。接着介绍了基尼指数和CART树的原理,以及如何利用它们进行数据纯度评估和构建二叉树。此外,还讨论了回归树的构建,特别是如何利用标准方差和变异系数来指导树的分裂和预测值的计算。
摘要由CSDN通过智能技术生成

1.分类树

1.1.1信息熵

定义随机事件 X = x X=x X=x自信息
I ( X = x ) = − l o g a P ( X = x ) I(X=x)=- log_aP(X=x) I(X=x)=logaP(X=x)

  • 注, a = 2 a=2 a=2 H ( X ) H(X) H(X)单位为比特, a = e a=e a=e H ( X ) H(X) H(X)单位为奈特

对所有自信息求均值即得到信息熵,它是用来衡量信息不确定性的指标,数值越大,不确定性越大
H ( X ) = ∑ i = 1 n P ( X = x i ) I ( X = x i ) = − ∑ i = 1 n P ( X = x i ) l o g a P ( X = x i ) = E X ∼ P l o g P ( x ) \begin{aligned} H(X)&=\sum_{i=1}^nP(X=x_i)I(X=x_i)\\ &=- \sum_{i=1}^nP(X=x_i)log_aP(X=x_i)\\ &=\mathbb{E}_{X \sim P} log P(x) \end{aligned} H(X)=i=1nP(X=xi)I(X=xi)=i=1nP(X=xi)logaP(X=xi)=EXPlogP(x)

  • a = 2 a=2 a=2是一般情况
1.1.2条件熵

顾名思义,即为条件概率的信息熵,固定条件 X = x X=x X=x H ( Y ∣ X = x ) H(Y|X=x) H(YX=x)
H ( Y ∣ X = x ) = ∑ i = 1 n P ( Y = y i ∣ X = x ) I ( Y = y i ∣ X = x ) = − ∑ i = 1 n P ( Y = y i ∣ X = x ) l o g 2 P ( Y = y i ∣ X = x ) \begin{aligned} H(Y|X=x)&=\sum_{i=1}^nP(Y=y_i|X=x)I(Y=y_i|X=x)\\ &=- \sum_{i=1}^nP(Y=y_i|X=x)log_2P(Y=y_i|X=x) \end{aligned} H(YX=x)=i=1nP(Y=yiX=x)I(Y=yiX=x)=i=1nP(Y=yiX=x)log2P(Y=yiX=x)

1.1.3信息增益

代表在一个条件下,信息不确定性的减少程度
I ( Y , X ) = H ( Y ) − H ( Y , X ) I(Y,X)=H(Y)-H(Y,X) I(Y,X)=H(Y)H(Y,X)

  • 我们用信息增益最大的条件在决策树中分支
1.1.4KL散度

衡量数据真实分布 P ( x ) P(x) P(x)和模型预测分布 Q ( x ) Q(x) Q(x)差异程度
D K L ( P ∣ ∣ Q ) = E X ∼ P [ l o g P ( x ) Q ( x ) ] = E X ∼ P [ l o g P ( x ) − l o g Q ( x ) ] D_{KL}(P||Q)=\mathbb{E}_{X \sim P} [log \frac{P(x)}{Q(x)}]=\mathbb{E}_{X \sim P} [log P(x)-logQ(x)] DKL(PQ)=EXP[logQ(x)P(x)]=EXP[logP(x)logQ(x)]

  • KL散度是非负数的
1.1.5交叉熵

H ( P , Q ) = H ( P ) + D K L ( P ∣ ∣ Q ) = − E X ∼ P l o g Q ( x ) H(P,Q)=H(P)+D_{KL}(P||Q)=-\mathbb{E}_{X \sim P} logQ(x) H(P,Q)=H(P)+DKL(PQ)=EXPlogQ(x)

  • 常用损失函数
1.2.1基尼指数

基尼指数也叫基尼不纯度,表示在样本集合中一个随机样本被分错的概率,指数越小,被分错的概率越小,集合的纯度越高。
G i n i ( p ) = ∑ i = 1 n p i ( 1 − p i ) = 1 − ∑ i = 1 n p i 2 Gini(p)=\sum_{i=1}^np_i(1-p_i)=1-\sum_{i=1}^np_i^2 Gini(p)=i=1npi(1pi)=1i=1npi2

  • p i p_i pi表示选中第 i i i个类别的概率
1.2.2CART树

CART树是二叉树,对于一个具有多个取值(超过2个)的特征,需要计算以每一个取值作为划分点,计算样本D划分后自己的纯度 G i n i ( D , i ) Gini(D,i) Gini(D,i),从所有的可能的划分中找到 G i n i ( D , i ) Gini(D,i) Gini(D,i)最小的划分,即使目标划分。

2.回归树

树模型处理回归问题,叶子节点输出预测值,然后对各叶子节点线性组合求均值。回归树的分支标准为标准方差回归树使用某一特征将原集合分为多个子集,用标准方差衡量子集中的元素是否相近,越小表示越相近。
x ‾ = ∑ i = 1 n x n \overline x = \frac{\sum_{i=1}^n x}{n} x=ni=1nx
S = ∑ i = 1 n ( x − x ‾ ) 2 n − 1 S = \sqrt\frac{\sum_{i=1}^n ( x- \overline x)^2}{n-1} S=n1i=1n(xx)2
c v = S x ‾ cv = \frac{ S}{\overline x} cv=xS
S ( T , X ) = ∑ c ∈ X P ( c ) S ( c ) S(T,X)=\sum_{c \in X} P(c)S(c) S(T,X)=cXP(c)S(c)
S D R ( T , X ) = S ( T ) − S ( T , X ) SDR(T,X)=S(T)-S(T,X) SDR(T,X)=S(T)S(T,X)

  • c v cv cv是变异系数,决定是否继续分支, S D R ( T , X ) SDR(T,X) SDR(T,X)是标准差增益,选定值最大的进行分类。
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值