贝叶斯学习
1.基础
- 条件概率: P ( A ∣ B ) = P ( A B ) P ( B ) P(A|B) = \frac{P(AB)}{P(B)} P(A∣B)=P(B)P(AB)
- 乘法定理: P ( A B ) = P ( A ∣ B ) P ( B ) = P ( B ∣ A ) P ( A ) P(AB ) = P(A|B)P(B) = P(B|A)P(A) P(AB)=P(A∣B)P(B)=P(B∣A)P(A)
- 先验概率: P ( Y = c k ) P(Y=c_k) P(Y=ck)
- 后验概率: P ( Y = c k ∣ X = x ) = P ( X = x ∣ Y = c k ) P ( Y = c k ) ∑ k P ( X = x ∣ Y = c k ) P ( Y = c k ) P(Y=c_k|X=x)=\frac{P(X=x|Y=c_k)P(Y=c_k)}{\sum _kP(X=x|Y=c_k)P(Y=c_k)} P(Y=ck∣X=x)=∑kP(X=x∣Y=ck)P(Y=ck)P(X=x∣Y=ck)P(Y=ck)
2.贝叶斯决策论
基于公式
P
(
w
i
∣
x
)
=
P
(
x
∣
w
i
)
P
(
w
i
)
P
x
P(w_i|x) = \frac{P(x|w_i)P(w_i)}{Px}
P(wi∣x)=PxP(x∣wi)P(wi)
决策:
if
P
(
x
∣
w
1
)
P
(
x
∣
w
2
)
>
P
(
w
2
)
P
(
w
1
)
\frac{P(x|w1)}{P(x|w2)} > \frac{P(w_2)}{P(w_1)}
P(x∣w2)P(x∣w1)>P(w1)P(w2) then
w
1
w_1
w1
else
w
2
w_2
w2
最小错误率贝叶斯决策
p
(
e
∣
x
)
=
1
−
p
(
w
r
i
g
h
t
∣
x
)
p(e|x) = 1-p(w_{right}|x)
p(e∣x)=1−p(wright∣x)
整体错误率
若 x ∈ w 1 : p ( x ∣ w 1 ) p ( w 1 ) x\in w_1: p(x|w_1)p(w_1) x∈w1:p(x∣w1)p(w1)累计到正确率, P ( x ∣ w 2 ) P ( w 2 ) P(x|w_2)P(w_2) P(x∣w2)P(w2)累计到错误率;相反类似。
引入风险决策,加入损失矩阵,目标函数:最小风险
题型:最小错误率&最小风险贝叶斯进行判别;
3.贝叶斯分类器
核心估计: P ( x ∣ c ) , P ( c ) P(x|c),P(c) P(x∣c),P(c)
不同类型的决策函数(由决策公式变种)
- 朴素贝叶斯分类器(属性独立)
- 半朴素贝叶斯分类器(属性依赖)
- 正态分布的贝叶斯分类器( P ( x ∣ c ( θ ) ) P(x|c(\theta)) P(x∣c(θ))正态分布)
3.1 朴素贝叶斯分类器
决策过程
- 类别先验估计 P ( c ) P(c) P(c)
- 类别条件概率估计 P(x|c)
- 贝叶斯决策 h(x)
拉普拉斯平滑 避免训练样本不充分
在
P
(
c
)
P(c)
P(c)分母加种类数N,在
P
(
x
i
∣
c
)
P(x_i|c)
P(xi∣c)分母加属性类别数
N
i
N_i
Ni,分子加1
3.2 正态密度的贝叶斯分类器
h ( x ) = a r g m a x c ∈ y P ( c ) P ( x ∣ c ) , P ( x ∣ c ) h(x) = argmax_{c \in y}P(c)P(x|c), P(x|c) h(x)=argmaxc∈yP(c)P(x∣c),P(x∣c)正态分布
4 贝叶斯学习与参数估计问题
三个基本问题:
- 最大后验估计
- 最大似然估计
- 贝叶斯学习
4.1 贝叶斯学习
- Beta先验分布:二项分布的共轭是beta分布
- Dirichlet先验分布:多项分布的共轭是Dirichlet分布
注:在贝叶斯统计中,如果后验分布与先验分布属于同类,则先验分布与后验分布被称为共轭分布,而先验分布被称为似然函数的共轭先验。
4.2 极大似然估计
最大化观察数据的概率
已知模型,求最大参数
4.3 最大后验估计
求使后验最大的模型或参数
参考
- 《机器学习》PPT课件
- 《统计学习方法》李航 第4章 朴素贝叶斯法
- 《图解机器学习》