1.分类树
1.1.1信息熵
定义随机事件
X
=
x
X=x
X=x的自信息为
I
(
X
=
x
)
=
−
l
o
g
a
P
(
X
=
x
)
I(X=x)=- log_aP(X=x)
I(X=x)=−logaP(X=x)
- 注, a = 2 a=2 a=2时 H ( X ) H(X) H(X)单位为比特, a = e a=e a=e时 H ( X ) H(X) H(X)单位为奈特
对所有自信息求均值即得到信息熵,它是用来衡量信息不确定性的指标,数值越大,不确定性越大
H
(
X
)
=
∑
i
=
1
n
P
(
X
=
x
i
)
I
(
X
=
x
i
)
=
−
∑
i
=
1
n
P
(
X
=
x
i
)
l
o
g
a
P
(
X
=
x
i
)
=
E
X
∼
P
l
o
g
P
(
x
)
\begin{aligned} H(X)&=\sum_{i=1}^nP(X=x_i)I(X=x_i)\\ &=- \sum_{i=1}^nP(X=x_i)log_aP(X=x_i)\\ &=\mathbb{E}_{X \sim P} log P(x) \end{aligned}
H(X)=i=1∑nP(X=xi)I(X=xi)=−i=1∑nP(X=xi)logaP(X=xi)=EX∼PlogP(x)
- a = 2 a=2 a=2是一般情况
1.1.2条件熵
顾名思义,即为条件概率的信息熵,固定条件
X
=
x
X=x
X=x求
H
(
Y
∣
X
=
x
)
H(Y|X=x)
H(Y∣X=x)
H
(
Y
∣
X
=
x
)
=
∑
i
=
1
n
P
(
Y
=
y
i
∣
X
=
x
)
I
(
Y
=
y
i
∣
X
=
x
)
=
−
∑
i
=
1
n
P
(
Y
=
y
i
∣
X
=
x
)
l
o
g
2
P
(
Y
=
y
i
∣
X
=
x
)
\begin{aligned} H(Y|X=x)&=\sum_{i=1}^nP(Y=y_i|X=x)I(Y=y_i|X=x)\\ &=- \sum_{i=1}^nP(Y=y_i|X=x)log_2P(Y=y_i|X=x) \end{aligned}
H(Y∣X=x)=i=1∑nP(Y=yi∣X=x)I(Y=yi∣X=x)=−i=1∑nP(Y=yi∣X=x)log2P(Y=yi∣X=x)
1.1.3信息增益
代表在一个条件下,信息不确定性的减少程度
I
(
Y
,
X
)
=
H
(
Y
)
−
H
(
Y
,
X
)
I(Y,X)=H(Y)-H(Y,X)
I(Y,X)=H(Y)−H(Y,X)
- 我们用信息增益最大的条件在决策树中分支
1.1.4KL散度
衡量数据真实分布
P
(
x
)
P(x)
P(x)和模型预测分布
Q
(
x
)
Q(x)
Q(x)的差异程度
D
K
L
(
P
∣
∣
Q
)
=
E
X
∼
P
[
l
o
g
P
(
x
)
Q
(
x
)
]
=
E
X
∼
P
[
l
o
g
P
(
x
)
−
l
o
g
Q
(
x
)
]
D_{KL}(P||Q)=\mathbb{E}_{X \sim P} [log \frac{P(x)}{Q(x)}]=\mathbb{E}_{X \sim P} [log P(x)-logQ(x)]
DKL(P∣∣Q)=EX∼P[logQ(x)P(x)]=EX∼P[logP(x)−logQ(x)]
- KL散度是非负数的
1.1.5交叉熵
H ( P , Q ) = H ( P ) + D K L ( P ∣ ∣ Q ) = − E X ∼ P l o g Q ( x ) H(P,Q)=H(P)+D_{KL}(P||Q)=-\mathbb{E}_{X \sim P} logQ(x) H(P,Q)=H(P)+DKL(P∣∣Q)=−EX∼PlogQ(x)
- 常用损失函数
1.2.1基尼指数
基尼指数也叫基尼不纯度,表示在样本集合中一个随机样本被分错的概率,指数越小,被分错的概率越小,集合的纯度越高。
G
i
n
i
(
p
)
=
∑
i
=
1
n
p
i
(
1
−
p
i
)
=
1
−
∑
i
=
1
n
p
i
2
Gini(p)=\sum_{i=1}^np_i(1-p_i)=1-\sum_{i=1}^np_i^2
Gini(p)=i=1∑npi(1−pi)=1−i=1∑npi2
- p i p_i pi表示选中第 i i i个类别的概率
1.2.2CART树
CART树是二叉树,对于一个具有多个取值(超过2个)的特征,需要计算以每一个取值作为划分点,计算样本D划分后自己的纯度 G i n i ( D , i ) Gini(D,i) Gini(D,i),从所有的可能的划分中找到 G i n i ( D , i ) Gini(D,i) Gini(D,i)最小的划分,即使目标划分。
2.回归树
树模型处理回归问题,叶子节点输出预测值,然后对各叶子节点线性组合求均值。回归树的分支标准为标准方差回归树使用某一特征将原集合分为多个子集,用标准方差衡量子集中的元素是否相近,越小表示越相近。
x
‾
=
∑
i
=
1
n
x
n
\overline x = \frac{\sum_{i=1}^n x}{n}
x=n∑i=1nx
S
=
∑
i
=
1
n
(
x
−
x
‾
)
2
n
−
1
S = \sqrt\frac{\sum_{i=1}^n ( x- \overline x)^2}{n-1}
S=n−1∑i=1n(x−x)2
c
v
=
S
x
‾
cv = \frac{ S}{\overline x}
cv=xS
S
(
T
,
X
)
=
∑
c
∈
X
P
(
c
)
S
(
c
)
S(T,X)=\sum_{c \in X} P(c)S(c)
S(T,X)=c∈X∑P(c)S(c)
S
D
R
(
T
,
X
)
=
S
(
T
)
−
S
(
T
,
X
)
SDR(T,X)=S(T)-S(T,X)
SDR(T,X)=S(T)−S(T,X)
- c v cv cv是变异系数,决定是否继续分支, S D R ( T , X ) SDR(T,X) SDR(T,X)是标准差增益,选定值最大的进行分类。