一、相对熵
1.1 . 名词解释:相对熵,又称交叉熵,Kullback-Leible散度(KL散度)。
1.2. 定义
1.3. 说明
二、互信息
- 定义
两个随机变量X和Y的互信息,定义为X,Y的联合分布和独立分布乘积的相对熵
I ( X , Y ) = D ( P ( X , Y ) ∣ ∣ P ( X ) P ( Y ) ) I(X,Y) = D(P(X,Y)||P(X)P(Y)) I(X,Y)=D(P(X,Y)∣∣P(X)P(Y))
三、信息增益
- 定义
信息增益:表示得知特征A的信息而使得数据集D信息不确定性减少的程度
g ( D , A ) = H ( D ) − H ( D ∣ A ) g(D,A) = H(D) - H(D|A) g(D,A)=H(D)−H(D∣A)
信息增益是数据集D和特征A的互信息
即:
g
(
D
,
A
)
=
I
(
D
,
A
)
g(D,A) = I(D,A)
g(D,A)=I(D,A)
证明:
左边
g
(
D
,
A
)
=
H
(
D
)
−
H
(
D
∣
A
)
=
H
(
D
)
−
(
H
(
D
,
A
)
−
H
(
A
)
)
=
H
(
D
)
+
H
(
A
)
−
H
(
D
,
A
)
\begin{aligned} g(D,A) &= H(D) - H(D|A)\\ &= H(D)-(H(D,A) - H(A))\\ &= H(D)+ H(A)-H(D,A) \end{aligned}
g(D,A)=H(D)−H(D∣A)=H(D)−(H(D,A)−H(A))=H(D)+H(A)−H(D,A)
右边
H
(
D
,
A
)
=
D
(
P
(
D
,
A
)
∣
∣
P
(
D
)
P
(
A
)
)
=
Σ
D
Σ
A
P
(
D
,
A
)
l
o
g
P
(
D
,
A
)
P
(
D
)
P
(
A
)
=
Σ
D
Σ
A
P
(
D
,
A
)
l
o
g
P
(
D
,
A
)
−
Σ
D
Σ
A
P
(
D
,
A
)
l
o
g
(
P
(
D
)
P
(
A
)
)
=
−
H
(
D
,
A
)
+
Σ
D
Σ
A
P
(
D
,
A
)
l
o
g
P
(
D
)
+
Σ
D
Σ
A
P
(
D
,
A
)
l
o
g
P
(
A
)
=
−
H
(
D
,
A
)
+
Σ
D
l
o
g
P
(
D
)
Σ
A
P
(
D
,
A
)
+
Σ
A
l
o
g
P
(
A
)
Σ
D
P
(
D
,
A
)
=
−
H
(
D
,
A
)
+
Σ
D
l
o
g
P
(
D
)
P
(
D
)
+
Σ
A
l
o
g
P
(
A
)
P
(
A
)
=
−
H
(
D
,
A
)
+
H
(
D
)
+
H
(
A
)
\begin{aligned} H(D,A) &= D(P(D,A)||P(D)P(A))\\ &= \Sigma_{D}\Sigma_{A}P(D,A)log\frac{P(D,A)}{P(D)P(A)}\\ &= \Sigma_{D}\Sigma_{A}P(D,A)logP(D,A)-\Sigma_{D}\Sigma_{A}P(D,A)log(P(D)P(A))\\ &=-H(D,A)+\Sigma_{D}\Sigma_{A}P(D,A)logP(D)+\Sigma_{D}\Sigma_{A}P(D,A)logP(A)\\ &=-H(D,A)+\Sigma_{D}logP(D)\Sigma_{A}P(D,A)+\Sigma_{A}logP(A)\Sigma_{D}P(D,A)\\ &=-H(D,A)+\Sigma_{D}logP(D)P(D)+\Sigma_{A}logP(A)P(A)\\ &=-H(D,A)+H(D)+H(A) \end{aligned}
H(D,A)=D(P(D,A)∣∣P(D)P(A))=ΣDΣAP(D,A)logP(D)P(A)P(D,A)=ΣDΣAP(D,A)logP(D,A)−ΣDΣAP(D,A)log(P(D)P(A))=−H(D,A)+ΣDΣAP(D,A)logP(D)+ΣDΣAP(D,A)logP(A)=−H(D,A)+ΣDlogP(D)ΣAP(D,A)+ΣAlogP(A)ΣDP(D,A)=−H(D,A)+ΣDlogP(D)P(D)+ΣAlogP(A)P(A)=−H(D,A)+H(D)+H(A)
四、概率
五、贝叶斯网络
5.1. 定义
5.2. 一个简单贝叶斯网络
5.3.全连接贝叶斯
5.4.
5.5. 贝叶斯举例
5.6. 特殊的贝叶斯——马尔科夫链
5.7. 条件独立的形式
a. tail to tail
b. head to tail
c. head to head