贝叶斯决策论
贝叶斯决策是基于相关已知概率和误判损失来选择最优的类别。
最小风险决策
决策类别空间 C = { c 1 , c 2 , . . . , c N } C=\{c_{1},c_{2},...,c_{N}\} C={c1,c2,...,cN},样本为 x x x
- 决策代价
λ i j \lambda_{ij} λij是将真实标记为为 c j c_{j} cj的样本误分为 c i c_{i} ci所产生的损失。 - 条件风险
基于后验概率 p ( c i / x ) p(c_{i}/x) p(ci/x)可获得将样本 x x x分类为 c i c_{i} ci所产生的期望损失,即在样本 x x x上的条件风险
R ( c i / x ) = ∑ j = 1 N λ i j p ( c i / x ) ( 1 ) R(c_{i}/x)=\sum_{j=1}^{N}\lambda_{ij}p(c_{i}/x)\ \ \ \ \ \ (1) R(ci/x)=j=1∑Nλijp(ci/x) (1) - 判定准则
寻找一个判定准则使得样本对应类别空间具有最小化总体风险
R ( h ) = E x [ R ( h ( x ) / x ) ] ( 2 ) R(h)=E_{x}[R(h(x)/x)]\ \ \ \ \ \ (2) R(h)=Ex[R(h(x)/x)] (2)
显然对每个样本 x x x,若 h h h能最小化条件风险 R ( h ( x ) / x ) R(h(x)/x) R(h(x)/x),则总体风险 R ( h ) R(h) R(h)也将被最小化。于是,有了贝叶斯判定准则:为最小化总体风险,只需要在每个样本上选择哪个能使条件风险 R ( h ( x ) / x ) R(h(x)/x) R(h(x)/x)最小的类别标记。即
h ∗ = a r g min c ∈ C R ( c / x ) ( 3 ) h^{*}=arg \min _{c\in C}R(c/x)\ \ \ \ \ \ (3) h∗=argc∈CminR(c/x) (3)
h ∗ h^{*} h∗为贝叶斯最优分类器,与之对应的 R ( h ∗ ) R(h^{*}) R(h∗)称为贝叶斯风险。 1 − R ( h ∗ ) 1-R(h^{*}) 1−R(h∗)反映了分类器能达到的最好性能,即通过机器学习所能产生的模型精度的理论上限。
伯努利——最大化后验概率
二分类问题的条件风险即为分类错误率,即
λ
i
j
=
(
i
=
=
j
)
?
1
:
0
\lambda_{ij}=(i==j) ?1:0
λij=(i==j)?1:0,式(1)条件风险可化为
R
(
c
/
x
)
=
1
−
p
(
c
/
x
)
(
4
)
R(c/x)=1-p(c/x)\ \ \ \ \ \ (4)
R(c/x)=1−p(c/x) (4)
则贝叶斯最优分类器为
h
∗
=
a
r
g
max
c
∈
C
p
(
c
/
x
)
(
5
)
h^{*}=arg \max _{c\in C}p(c/x)\ \ \ \ \ \ (5)
h∗=argc∈Cmaxp(c/x) (5)
即最大化样本的后验概率。鉴于后验概率实际中难以直接获得,衍生了生成模式和判别模式这两种策略。生成模式:对联合概率
p
(
x
,
c
)
p(x,c)
p(x,c)进行建模,然后再获得后验概率
p
(
c
/
x
)
p(c/x)
p(c/x);判别模型:直接建模后验概率
p
(
c
/
x
)
p(c/x)
p(c/x),如决策树、神经网络、SVM等。
基于贝叶斯定力,后验概率可由先验概率
p
(
c
)
p(c)
p(c)和似然概率
p
(
x
/
c
)
p(x/c)
p(x/c)获取
p
(
c
/
x
)
=
p
(
c
)
p
(
x
/
c
)
p
(
x
)
(
6
)
p(c/x)=\frac{p(c)p(x/c)}{p(x)}\ \ \ \ \ \ (6)
p(c/x)=p(x)p(c)p(x/c) (6)
很多样本取值再训练集中根本没有出现,直接使用频率来估计似然概率
p
(
x
/
c
)
p(x/c)
p(x/c)显然不可行,因为“未被观测到”与“出现概率为零”通常是不同的。
实际应用——极大似然估计(MLE)
概率模型的训练过程就是参数估计过程。
令
D
c
D_{c}
Dc表示训练集
D
D
D中第
c
c
c类样本组成的集合,假设这些样本是独立同分布的,则参数
θ
c
\theta _{c}
θc对于数据集
D
c
D_{c}
Dc的似然是
p
(
D
c
/
θ
c
)
=
∏
p
(
x
/
θ
c
)
(
7
)
p(D_{c}/\theta_{c})=\prod p(x/\theta_{c})\ \ \ \ \ \ (7)
p(Dc/θc)=∏p(x/θc) (7)
即极大似然估计是试图在
θ
c
\theta_{c}
θc所有可能的取值中,找到一个能使数据出现的”可能性“最大的值。
防止计算下溢,通常取对数似然。
人话……
已知:随机事件的概率分布函数
操作:根据样本估计未知的参数——即在确定的结果下,推测产生这个结果的可能参数,根据已发生的结果来估计事件的本身性质
思想:假设样本是在参数的基础上采样的,则N次采样的联合概率分布可以记为
p
(
x
1
,
x
2
,
.
.
.
,
x
N
/
θ
)
p(x_{1},x_{2},...,x_{N}/\theta)
p(x1,x2,...,xN/θ),最有可能的值就是
x
x
x发生的联合概率最大的值,假设每次抽取独立同分布,那么联合概率可以转为连乘形式。
朴素贝叶斯分类器
假设每个属性独立地对分类结果发生影响,则式(6)可转为
p
(
c
/
x
)
=
p
(
c
)
p
(
x
/
c
)
p
(
x
)
=
p
(
c
)
p
(
x
)
∏
i
=
1
D
p
(
x
i
/
c
)
(
8
)
p(c/x)=\frac{p(c)p(x/c)}{p(x)}=\frac{p(c)}{p(x)}\prod_{i=1}^{D}p(x_{i}/c) \ \ \ \ \ \ (8)
p(c/x)=p(x)p(c)p(x/c)=p(x)p(c)i=1∏Dp(xi/c) (8)
则朴素贝叶斯分类器的表达式为
h
n
b
(
x
)
=
a
r
g
max
p
(
c
)
∏
i
=
1
D
p
(
x
i
/
c
)
(
9
)
h_{nb}(x)=arg \max p(c)\prod_{i=1}^{D}p(x_{i}/c)\ \ \ \ \ (9)
hnb(x)=argmaxp(c)i=1∏Dp(xi/c) (9)
即朴素贝叶斯分类器的训练过程就是基于训练集来估计类先验概率
p
(
c
)
p(c)
p(c),并为每个属性估计条件概率
p
(
x
i
/
c
)
p(x_{i}/c)
p(xi/c)。
p
(
c
)
=
∣
D
c
∣
∣
D
∣
p
(
x
i
∣
c
)
=
∣
D
c
,
x
i
∣
∣
D
∣
(
10
)
p(c)=\frac{|D_{c}|}{|D|}\ \ \ p(x_{i}|c)=\frac{|D_{c,x_i}|}{|D|}\ \ \ \ \ (10)
p(c)=∣D∣∣Dc∣ p(xi∣c)=∣D∣∣Dc,xi∣ (10)
简单的用频率来表示概率,成也萧何,败也萧何~~
拉普拉斯修正——避免其他属性携带的信息被训练集中未出现的属性值”抹去“,在估计概率值时进行”平滑“,考虑未观测到的值。
p
(
c
)
=
∣
D
c
∣
+
1
∣
D
∣
+
N
p
(
x
i
∣
c
)
=
∣
D
c
,
x
i
∣
+
1
∣
D
∣
+
N
i
(
11
)
p(c)=\frac{|D_{c}|+1}{|D|+N}\ \ \ p(x_{i}|c)=\frac{|D_{c,x_i}|+1}{|D|+N_{i}}\ \ \ \ \ (11)
p(c)=∣D∣+N∣Dc∣+1 p(xi∣c)=∣D∣+Ni∣Dc,xi∣+1 (11)