参考了周志华机器学习
李航 统计学习方法和课件
曾志军 机器学习(中译本)
原理
贝叶斯是统计学习过程结合了先验知识和观测数据,与极大似然法的区别就是,贝叶斯会根据新增案例来改变模型,而极大似然法不会。
分类
voting gibbs (optimaler Bayes-Klassifikator)
naiver bayes-klassifikator
bayessche netze
他也用于半监督学习
这个地方留给半监督学习
实际应用出现的问题
先验概率和分布不可得,所以根据背景知识以及观测数据估计
贝叶斯发明出来的时间较早,但是计算量很大,所以随着计算机能力的提升才真正得以使用
概率理论
乘法规则: 两个事件的结合
P
(
A
∩
B
)
=
P
(
A
∣
B
)
P
(
B
)
=
P
(
B
∣
A
)
P
(
A
)
P(A\cap B)=P(A|B)P(B)=P(B|A)P(A)
P(A∩B)=P(A∣B)P(B)=P(B∣A)P(A)
加法规则
P
(
A
∪
B
)
=
P
(
A
)
+
P
(
B
)
−
P
(
A
∩
B
)
P(A\cup B)=P(A)+P(B)-P(A\cap B)
P(A∪B)=P(A)+P(B)−P(A∩B)
全概率
已知
∑
i
=
1
N
P
(
B
∣
A
i
)
P
(
A
i
)
=
P
(
B
)
\sum_{i=1}^NP(B|A_i)P(A_i)=P(B)
∑i=1NP(B∣Ai)P(Ai)=P(B)
贝叶斯公式
P
(
h
∣
D
)
=
P
(
D
∣
h
)
P
(
h
)
P
(
D
)
P(h|D)=\frac{P(D|h)P(h)}{P(D)}
P(h∣D)=P(D)P(D∣h)P(h)
P(D)可以从观测数据中得到的概率
P(D|h)h这个知识体系中,D发生的概率,也就是似然,likelihood
P(h|D) posteriori 后验概率
P(h) priori 先验概率,就是知识体系。
不相关性
如果YZ两个事件不相关
P
(
X
∣
Y
,
Z
)
=
P
(
X
∣
Z
)
P(X|Y,Z)=P(X|Z)
P(X∣Y,Z)=P(X∣Z)
例子:
打雷相对于闪电跟下雨没关所以
P(打雷|下雨,闪电)=P(打雷|闪电)
假设选择公式MAP
maximum of posteriori
h
M
A
P
=
a
r
g
max
h
∈
H
P
(
D
∣
h
)
P
(
h
)
P
(
D
)
=
a
r
g
max
h
∈
H
P
(
D
∣
h
)
P
(
h
)
,
P
(
D
)
=
c
o
n
s
t
.
h_{MAP}=arg\max_{h\in H}\frac{P(D|h)P(h)}{P(D)}=arg\max_{h\in H}P(D|h)P(h),P(D) = const.
hMAP=argmaxh∈HP(D)P(D∣h)P(h)=argmaxh∈HP(D∣h)P(h),P(D)=const.
而对于最大似然法(maximum likelihood)来说,他的体系是固定的
P
(
h
i
)
=
P
(
h
j
)
P(h_i)=P(h_j)
P(hi)=P(hj),
所以,
h
M
L
=
a
r
g
max
h
∈
H
P
(
D
∣
h
i
)
h_{ML}=arg\max_{h\in H}P(D|h_i)
hML=argmaxh∈HP(D∣hi)
BRUTE-FORCE 算法
- 计算每一个 h ∈ H h\in H h∈H的后验概率
- 选择最大的后验概率对应的h
此算法需要较大的计算量
例子
已知
P(癌症)=0.008, P(非癌症)=0.992
P(结果为阳性|癌症)=0.98,P(结果为阴性|癌症)=0.02
P(结果为阳性|非癌症=0.03, P(结果为阴性|费癌症=0.97
P ( 癌 症 ∣ 阳 性 ) = P ( + ∣ K r e b s ) P ( K r e b s ) P ( + ) = P ( + ∣ K r e b s ) P ( K r e b s ) P ( + ∣ K r e b s ) P ( K r e b s ) + P ( + ∣ ! K r e b s ) P ( ! K r e b s ) = 0.98 ∗ 0.008 / ( 0.98 ∗ 0.008 + 0.03 ∗ 0.992 ) = 0.21 P(癌症|阳性)=\frac{P(+|Krebs)P(Krebs)}{P(+)} =\frac{P(+|Krebs)P(Krebs)}{P(+|Krebs)P(Krebs)+P(+|!Krebs)P(!Krebs)}=0.98*0.008/(0.98*0.008+0.03*0.992)=0.21 P(癌症∣阳性)=P(+)P(+∣Krebs)P(Krebs)=P(+∣Krebs)P(Krebs)+P(+∣!Krebs)P(!Krebs)P(+∣Krebs)P(Krebs)=0.98∗0.008/(0.98∗0.008+0.03∗0.992)=0.21
这个是求的后验概率,病人有病的可能
h M A P = a r g max h ∈ { K r e b s , ! K r e b s } { P ( + ∣ K r e b s ) P ( K r e b s ) , P ( + ∣ ! K r e b s ) P ( ! K r e b s ) } = a r g max h ∈ { K r e b s , ! K r e b s } { 0.0078 , 0.0298 } , − > h M A P = ! K r e b s h_{MAP}=arg\max_{h\in \{Krebs,!Krebs\}}\{P(+|Krebs)P(Krebs),P(+|!Krebs)P(!Krebs)\}=arg\max_{h\in \{Krebs,!Krebs\}}\{0.0078,0.0298\},->h_{MAP}=!Krebs hMAP=argh∈{Krebs,!Krebs}max{P(+∣Krebs)P(Krebs),P(+∣!Krebs)P(!Krebs)}=argh∈{Krebs,!Krebs}max{0.0078,0.0298},−>hMAP=!Krebs
这个是正确解法,判断病人没有癌症
当没有学习的时候对于h的估计如最左,当不断的增加数据的时候,就越来越向右变化,直至接近唯一假设
可以用ml来估计目标方程,但是在训练模型的时候是考虑到了噪声,但是测量的时候却没有考虑噪声
optimaler bayes-Klassifikator(贝叶斯最优分类器)
每个假设等概率叠加
v
O
B
=
a
r
g
max
v
j
∈
V
∑
h
i
∈
H
P
(
v
j
∣
h
i
)
P
(
h
i
∣
D
)
v_OB=arg\max_{v_j\in V}\sum_{h_i\in H}P(v_j|h_i)P(h_i|D)
vOB=argmaxvj∈V∑hi∈HP(vj∣hi)P(hi∣D)
改进gibbs
按照当前D的后验概率来组合假设,误分类率的期望是最优的两倍
naiver Bayes-Klassifikator(朴素贝叶斯分类器)
不考虑各个属性的相关性。
分别计算这一情况下去和不去的概率。
由于有一些属性概率是0,导致相乘的时候影响其他属性,所以要统一分子分母加拉普拉斯估计
他在文章分类上的研究,统计文章分类的关键字,去除常见字以及出现次数较少的字,确定用户喜欢的话题和讨厌的话题,每天推荐用户评分前10%,今日头条是这个原理么?
bayessche Netze(贝叶斯信念网)
考虑属性间的相关性
对于两个属性影响结果的可能变成了4种
贝叶斯网络的学习:
结构已知,所有变量都可观察:naiven Bayes-Klassifikator
结构已知,少量变量可观察:梯度上升,EM
结构未知:启发式过程
EM算法
高斯混合分布算法
一. Initialisierung 随机选h和μ
二.
E
[
z
i
j
]
=
P
(
x
=
x
i
∣
μ
=
μ
j
)
∑
n
=
1
2
P
(
x
=
x
i
∣
μ
=
μ
n
)
=
e
−
1
2
δ
2
(
x
i
−
μ
j
)
2
∑
n
=
1
2
e
−
1
2
δ
2
(
x
i
−
μ
2
)
2
E[z_{ij}]=\frac{P(x=x_i|\mu=\mu_j)}{\sum_{n=1}^2P(x=x_i|\mu=\mu_n)}=\frac{e^{-\frac{1}{2\delta^2}(x_i-\mu_j)^2}}{\sum_{n=1}^2e^{-\frac{1}{2\delta^2}(x_i-\mu_2)^2}}
E[zij]=∑n=12P(x=xi∣μ=μn)P(x=xi∣μ=μj)=∑n=12e−2δ21(xi−μ2)2e−2δ21(xi−μj)2
三.
μ
j
′
=
1
m
∑
i
=
1
m
E
[
z
i
j
]
x
i
\mu_j^{'}=\frac{1}{m}\sum_{i=1}^mE[z_{ij}]x_i
μj′=m1∑i=1mE[zij]xi
一般EM算法
- Q ( h ′ ∣ h ) = E [ l n P ( Y ∣ h ′ ) ∣ X , h ) Q(h'|h)=E[lnP(Y|h')|X,h) Q(h′∣h)=E[lnP(Y∣h′)∣X,h)
- E: P(Y|X,h)
- h ′ = a r g max h ′ Q h'=arg\max_{h'}Q h′=argmaxh′Q