一、概率论
1、概率
三条公理:
(1)非负性:
P
(
A
)
>
=
0
P(A)>= 0
P(A)>=0
(2)规范性:
P
(
Ω
)
=
1
P(Ω)=1
P(Ω)=1
(3)可列可加性:
P
(
∑
i
=
0
n
A
i
)
P(\sum_{i=0}^nA_i)
P(∑i=0nAi)=
∑
i
=
0
n
\sum_{i=0}^n
∑i=0n
P
(
A
i
)
P(A_i)
P(Ai)
2、最大似然估计
用相对频率作为概率的估计值,这种概率估计值的方法称为最大似然估计。
相对频率:
{
s
1
,
s
2
,
⋯
,
s
n
}
\lbrace s_1,s_2,\cdots,s_n\rbrace
{s1,s2,⋯,sn}是一个样本空间,在相同条件下重复实验N次,观察到样本
s
k
s_k
sk出现的次数
n
N
(
s
k
)
n_N(s_k)
nN(sk),那么
s
k
s_k
sk在这N次试验中的相对频率就是:
q
N
(
s
k
)
=
n
N
(
s
k
)
q_N(s_k)=n_N(s_k)
qN(sk)=nN(sk) /
N
N
N
当N越来越大,相对频率
q
N
(
s
k
)
q_N(s_k)
qN(sk)就越接近概率
P
(
s
k
)
P(s_k)
P(sk):
lim x → ∞ \displaystyle\lim_{x\to\infty} x→∞lim q N ( s k ) q_N(s_k) qN(sk) = = = P ( s k ) P(s_k) P(sk)
3、条件概率
性质:
(1)非负性:
P
(
A
∣
B
)
≥
0
P(A|B)\geq0
P(A∣B)≥0
(2)规范性: P ( Ω ∣ B ) = 1 P(Ω|B)=1 P(Ω∣B)=1
(3)可列可加性:若
A
1
,
A
2
,
⋯
,
A
n
A_1,A_2,\cdots,A_n
A1,A2,⋯,An两两互不相容,则:
P
(
∑
i
=
0
∞
A
i
∣
B
)
=
P(\sum_{i=0}^∞A_i|B)=
P(∑i=0∞Ai∣B)=
∑
i
=
1
∞
P
(
A
i
∣
B
)
\sum_{i=1}^∞P(A_i|B)
∑i=1∞P(Ai∣B)
若条件
A
i
,
A
j
A_i,A_j
Ai,Aj条件独立,当且仅当:
P
(
A
i
.
A
j
∣
B
)
=
P
(
A
i
∣
B
)
∗
P
(
A
j
∣
B
)
P(A_i.A_j|B)=P(A_i|B)*P(A_j|B)
P(Ai.Aj∣B)=P(Ai∣B)∗P(Aj∣B)
4、贝叶斯法则
P
(
B
∣
A
)
=
P
(
A
∣
B
)
∗
P
(
B
)
P
(
A
)
P(B|A) =\frac{P(A|B)*P(B)}{P(A)}
P(B∣A)=P(A)P(A∣B)∗P(B)
其中
P
(
A
∣
B
)
P(A|B)
P(A∣B)是条件概率,
P
(
B
)
P(B)
P(B)是先验概率,
P
(
A
)
P(A)
P(A)是用全概率公式求得:
P
(
A
)
=
∑
i
P
(
A
∣
B
i
)
P
(
B
i
)
P(A)=\sum_iP(A|B_i)P(B_i)
P(A)=∑iP(A∣Bi)P(Bi)(其中
∑
i
B
i
=
Ω
\sum_iB_i=Ω
∑iBi=Ω)
贝叶斯公式:
P
(
B
j
∣
A
)
=
P
(
A
∣
B
j
)
P
(
B
j
)
∑
i
n
P
(
A
∣
B
i
)
P
(
B
i
)
P(B_j|A)=\frac{P(A|B_j)P(B_j)}{\sum_i^nP(A|B_i)P(B_i)}
P(Bj∣A)=∑inP(A∣Bi)P(Bi)P(A∣Bj)P(Bj)
5、随机变量
X
X
X是离散型随机变量,其全部可能的值为
{
a
1
,
a
2
,
⋯
}
\lbrace a_1,a_2,\cdots\rbrace
{a1,a2,⋯}。那么:
p
i
=
P
(
X
=
a
i
)
p_i=P(X=a_i)
pi=P(X=ai),上式也称为是随机变量
X
X
X的概率分布,此时函数:
P
(
X
≤
x
)
=
F
(
x
)
,
−
∞
<
x
<
∞
P(X\leq x)=F(x),-∞<x<∞
P(X≤x)=F(x),−∞<x<∞
称为
X
X
X的分布函数。
6、二项式分布
X − B ( n , p ) = C n i p i ( 1 − p ) n − i X-B(n,p)=C_n^ip^i(1-p)^{n-i} X−B(n,p)=Cnipi(1−p)n−i
7、联合概率分布和条件概率分布
(
X
1
,
X
2
)
(X_1,X_2)
(X1,X2)是二维的离散随机变量,
X
1
X_1
X1的取值为
a
1
,
a
2
,
⋯
a_1,a_2,\cdots
a1,a2,⋯;
X
2
X_2
X2的取值为
b
1
,
b
2
,
⋯
b_1,b_2,\cdots
b1,b2,⋯.那个
(
X
1
,
X
2
)
(X_1,X_2)
(X1,X2)的联合分布为:
p
i
j
=
P
(
X
1
=
a
i
,
X
2
=
b
j
)
p_{ij}=P(X_1=a_i,X_2=b_j)
pij=P(X1=ai,X2=bj)
P
(
X
1
=
a
i
∣
X
2
=
b
j
)
=
P
(
X
1
=
a
i
,
X
2
=
b
j
)
P
(
X
2
=
b
j
)
P(X_1=a_i|X_2=b_j)=\frac{P(X_1=a_i,X_2=b_j)}{P(X_2=b_j)}
P(X1=ai∣X2=bj)=P(X2=bj)P(X1=ai,X2=bj)
8、贝叶斯决策理论
分类问题有
c
c
c个类别,各类别的状态用
w
j
w_j
wj表示,
i
=
1
,
2
,
3
,
⋯
,
c
i=1,2,3,\cdots,c
i=1,2,3,⋯,c;对应于各个类别
w
i
w_i
wi出现的先验概率
p
(
w
i
)
p(w_i)
p(wi);在特征空间中观察到某一个向量
x
=
[
x
1
,
x
2
,
⋯
,
x
d
]
x=[x_1,x_2,\cdots,x_d]
x=[x1,x2,⋯,xd]是
d
d
d维空间的某一点,其条件概率
p
(
x
∣
w
i
)
p(x|w_i)
p(x∣wi)已知,那么利用贝叶斯公式求解后验概率
p
(
w
i
∣
x
)
p(w_i|x)
p(wi∣x)如下:
P
(
w
i
∣
x
)
=
P
(
x
∣
w
i
)
P
(
w
i
)
∑
j
=
0
c
P
(
x
∣
w
j
)
P
(
w
j
)
P(w_i|x)=\frac{P(x|w_i)P(w_i)}{\sum_{j=0}^cP(x|w_j)P(w_j)}
P(wi∣x)=∑j=0cP(x∣wj)P(wj)P(x∣wi)P(wi)
下面介绍两个贝叶斯决策规则:
1、基于最小错误率的贝叶斯决策规则:
(1)如果
p
(
w
i
∣
x
)
=
m
a
x
(
p
(
w
j
∣
x
)
)
,
j
=
1
,
2
,
⋯
,
c
p(w_i|x)=max(p(w_j|x)),j=1,2,\cdots,c
p(wi∣x)=max(p(wj∣x)),j=1,2,⋯,c,那么
x
∈
w
i
x\in w_i
x∈wi
(2)如果
p
(
x
∣
w
i
)
p
(
w
i
)
=
m
a
x
(
p
(
x
∣
w
j
)
p
(
w
j
)
)
,
j
=
1
,
2
,
⋯
,
c
p(x|w_i)p(w_i)=max(p(x|w_j)p(w_j)),j=1,2,\cdots,c
p(x∣wi)p(wi)=max(p(x∣wj)p(wj)),j=1,2,⋯,c,那么
x
∈
w
i
x\in w_i
x∈wi
(3)如果
l
(
x
)
=
p
(
x
∣
w
1
)
p
(
x
∣
w
2
)
>
p
(
w
2
)
p
(
w
1
)
,
j
=
1
,
2
,
⋯
,
c
l(x)=\frac{p(x|w_1)}{p(x|w_2)}>\frac{p(w_2)}{p(w_1)},j=1,2,\cdots,c
l(x)=p(x∣w2)p(x∣w1)>p(w1)p(w2),j=1,2,⋯,c,那么
x
∈
w
1
x\in w_1
x∈w1否则
x
∈
w
2
x\in w_2
x∈w2
即:
P
(
e
)
=
1
−
P
(
w
i
∣
X
)
P(e)=1-P(w_i|X)
P(e)=1−P(wi∣X)
2、基于最小风险的贝叶斯决策规则:
设置了损失函数
λ
j
(
i
)
=
λ
(
a
i
∣
w
j
)
\lambda_j^{(i)}=\lambda(a_i|w_j)
λj(i)=λ(ai∣wj)表示观测值X属于j类而被误判为i类的损失权重。
观测值X被判断为i类的平均损失为:
R
(
a
i
∣
X
)
=
∑
j
=
1
c
λ
(
a
i
∣
w
j
)
P
(
w
j
∣
x
)
R(a_i|X)=\sum_{j=1}^c\lambda(a_i|w_j)P(w_j|x)
R(ai∣X)=j=1∑cλ(ai∣wj)P(wj∣x)
R
(
a
k
∣
X
)
=
m
i
n
j
=
1
,
⋯
,
c
R
(
a
j
∣
X
)
R(a_k|X)=min_{j=1,\cdots,c}R(a_j|X)
R(ak∣X)=minj=1,⋯,cR(aj∣X)
当损失函数是0-1损失函数时,基于最小风险的贝叶斯决策等价于基于最小错误的贝叶斯决策。此时的平均损失为:
R
(
a
i
∣
X
)
=
∑
j
=
1
,
j
≠
i
c
P
(
w
j
∣
x
)
=
1
−
m
a
x
P
(
w
i
∣
x
)
R(a_i|X)=\sum_{j=1,j\neq i}^cP(w_j|x)=1-maxP(w_i|x)
R(ai∣X)=j=1,j=i∑cP(wj∣x)=1−maxP(wi∣x)
9、期望和方差
离散型:
连续型:
方差:
E
(
X
)
=
E
(
X
2
)
−
E
2
(
X
)
E(X)=E(X^2)-E^2(X)
E(X)=E(X2)−E2(X)
二、信息论
1、熵
定义:
H
(
X
)
=
−
∑
x
∈
R
p
(
x
)
l
o
g
2
p
(
x
)
H(X)=-\sum_{x\in R}p(x)log_2p(x)
H(X)=−∑x∈Rp(x)log2p(x)
一个随机变量的熵越大,它的不确定性也就越大。那么正确估计其值的可能性就越小,所以说越不确定的随机变量就越需要大的信息量来进行确定。
在已知部分知识的前提下,对未知分布最合理的推断就是符合已知知识最不确定或最大随机的推断。
2、联合熵和条件熵
(1)联合熵定义:
随机变量X,Y服从
p
(
x
,
y
)
p(x,y)
p(x,y)的联合分布,X,Y的联合熵为:
H
(
X
,
Y
)
=
−
∑
x
∈
X
∑
y
∈
Y
p
(
x
,
y
)
l
o
g
2
p
(
x
,
y
)
H(X,Y)=-\sum_{x\in X}\sum_{y\in Y}p(x,y)log_2p(x,y)
H(X,Y)=−x∈X∑y∈Y∑p(x,y)log2p(x,y)
联合熵实际上描述了一对随机变量平均所需要的信息量。
给定随机变量X的情况下,随机变量Y的条件熵为:
H
(
Y
∣
X
)
=
−
∑
x
∈
X
∑
y
∈
Y
p
(
x
,
y
)
l
o
g
2
p
(
y
∣
x
)
H(Y|X)=-\sum_{x\in X}\sum_{y\in Y}p(x,y)log_2p(y|x)
H(Y∣X)=−x∈X∑y∈Y∑p(x,y)log2p(y∣x)
下面是熵的连锁规则:
H
(
X
,
Y
)
=
H
(
X
)
+
H
(
Y
∣
X
)
H(X,Y)=H(X)+H(Y|X)
H(X,Y)=H(X)+H(Y∣X)
推广到一般情况:
H
(
X
1
,
X
2
,
,
⋯
,
X
n
)
=
H
(
X
1
)
+
H
(
X
2
∣
X
1
)
+
⋯
+
H
(
X
n
∣
X
1
,
X
2
,
⋯
,
X
n
−
1
)
H(X_1,X_2,,\cdots,X_n)=H(X_1)+H(X_2|X_1)+\cdots+H(X_n|X_1,X_2,\cdots,X_{n-1})
H(X1,X2,,⋯,Xn)=H(X1)+H(X2∣X1)+⋯+H(Xn∣X1,X2,⋯,Xn−1)
熵率:
H
r
a
t
e
=
1
n
H
(
X
1
n
)
=
−
1
n
∑
x
1
n
p
(
x
1
n
)
l
o
g
p
(
x
1
n
)
H_{rate}=\frac{1}{n}H(X_{1n})=-\frac{1}{n}\sum_{x_{1n}}p(x_{1n})logp(x_{1n})
Hrate=n1H(X1n)=−n1x1n∑p(x1n)logp(x1n)
其中,
X
1
n
=
{
X
1
,
X
2
,
⋯
,
X
n
}
X_{1n}=\lbrace X_1,X_2,\cdots,X_n\rbrace
X1n={X1,X2,⋯,Xn}
3、互信息
定义:这个差叫做X,Y的互信息,记作
I
(
X
;
Y
)
,
I
(
X
;
Y
)
≥
0
I(X;Y),I(X;Y)\geq0
I(X;Y),I(X;Y)≥0
H
(
X
)
−
H
(
X
∣
Y
)
=
H
(
Y
)
−
H
(
Y
∣
X
)
H(X)-H(X|Y)=H(Y)-H(Y|X)
H(X)−H(X∣Y)=H(Y)−H(Y∣X)
这个差量表示的是知道Y的值后,X的不确定性减少的量,也就是Y的值透漏了多少关于X的信息量。
I
(
X
;
Y
)
=
∑
x
,
y
p
(
x
,
y
)
l
o
g
p
(
x
,
y
)
p
(
x
)
p
(
y
)
I(X;Y)=\sum_{x,y}p(x,y)log\frac{p(x,y)}{p(x)p(y)}
I(X;Y)=x,y∑p(x,y)logp(x)p(y)p(x,y)
证明过程:
自信息(熵):
H
(
X
)
=
H
(
X
)
−
H
(
X
∣
X
)
=
I
(
X
;
X
)
,
H
(
X
∣
X
)
=
0
H(X)=H(X)-H(X|X)=I(X;X),H(X|X)=0
H(X)=H(X)−H(X∣X)=I(X;X),H(X∣X)=0
互信息度量的是两个随机变量之间的统计相关性。在自然语言处理中经常用互信息判断两个对象之间的关系,如根据主题类别和词汇间互信息大小进行特征词的抽取。
互信息的连锁规则:
I
(
X
;
Y
∣
Z
)
=
I
(
(
X
;
Y
)
∣
Z
)
=
H
(
X
∣
Z
)
−
H
(
X
∣
Y
,
Z
)
I(X;Y|Z)=I((X;Y)|Z)=H(X|Z)-H(X|Y,Z)
I(X;Y∣Z)=I((X;Y)∣Z)=H(X∣Z)−H(X∣Y,Z)
I
(
X
1
n
;
Y
)
=
∑
i
=
1
n
I
(
X
i
;
Y
∣
X
1
,
⋯
,
X
i
−
1
)
I(X_{1n};Y)=\sum_{i=1}^nI(X_i;Y|X_1,\cdots,X_{i-1})
I(X1n;Y)=i=1∑nI(Xi;Y∣X1,⋯,Xi−1)
4、相对熵
相对熵又称为KL距离。