对分类任务来说,在所有相关概率都己知的理想情形下,贝叶斯决策论考虑如何基于这些概率和误判损失来选择最优的类别标记.下面我们以多分类任务为例来解释其基本原理:
1. 最小错误率贝叶斯
最大后验分类规则:
w
∗
=
a
r
g
m
a
x
{
P
(
w
i
∣
x
)
}
w^{*}=argmax\left \{P(w_{i}|x)\right \}
w∗=argmax{P(wi∣x)}
理解: 对于最大后验分类规则进行讲述,如下图所示,当 wi 只有 w1、w2 时:
已知 P( error | x),那么错误率则是:
最后得出最小错误率:
最大后验概率分类规则:选择后验概率最大的那一个wi,此时错误率最小。
2. 极大似然估计
令 Dc 表示训练集 D 中第 c 类样本组成的集合,假设这些样本是独立同分布的,则参数 θc 对于数据集 Dc 的似然是:
对 θc 进行极大似然估计,就是去寻找能最大化似然 P(Dc I θc) 的参数值
θ
^
c
\hat{θ}_{c}
θ^c。 直观上看。 极大似然估计是试图在 θc 所有可能的取值中,找到一个能使数据出现的"可能性"最大的值。
Eg: 用个例子来辅助理解:
3. 最小风险贝叶斯
由于之前讲到了 最小错误率贝叶斯 等同于 最大后验概率规则。若引入损失函数,则比错误率更具一般性,并且允许有其他行为而不仅仅是判定类别,这时候提出了最小风险贝叶斯概念。
假设正确判决损失为0,错误判决损失为1,且判决数目与类型数目相等,此时 最小风险判决规则 变为 最小错误率判决规则:
λ
i
j
=
{
0
,
if
i
=
j
;
1
,
otherwise,
\lambda _{ij}=\begin{cases} 0, & \text{if}\ i=j\ ; \\ 1, & \text{otherwise,} \\ \end{cases}
λij={0,1,if i=j ;otherwise,
由上述两个式子可得: R ( c i ∣ x ) = 1 × P ( c 1 ∣ x ) + 1 × P ( c 2 ∣ x ) + … + 0 × P ( c i ∣ x ) + … + 1 × P ( c N ∣ x ) R(c_{i}|x)=1\times P(c_{1}|x)+1\times P(c_{2}|x)+…+0\times P(c_{i}|x)+…+ 1\times P(c_{N}|x) R(ci∣x)=1×P(c1∣x)+1×P(c2∣x)+…+0×P(ci∣x)+…+1×P(cN∣x)
又因为
∑
j
=
1
N
P
(
c
j
∣
x
)
=
1
\sum_{j=1}^{N}P(c_{j}|x)=1
∑j=1NP(cj∣x)=1,因此得到式子 :
R
(
c
∣
x
)
=
1
−
P
(
c
∣
x
)
R(c|x)=1-P(c|x)
R(c∣x)=1−P(c∣x)
因此 R(c|x) min,则只需 P(c|x) max。
Eg: 用个例子来辅助理解: