贝叶斯决策论
贝叶斯决策论是概率框架下实施决策的基本方法。对分类任务来说,在所有相关概率都已知的理想情形下,贝叶斯决策论考虑如何基于这些概率和误判损失来选择最优的类别标记。
假设有
N
N
N种可能的类别标记,即
Y
=
{
c
1
,
c
2
,
…
,
c
N
}
,
λ
i
j
\mathcal{Y}=\{c_1, c_2,\dots,c_N\},\lambda_{ij}
Y={c1,c2,…,cN},λij是将一个真实标记为
c
j
c_j
cj的样本误分类为
c
i
c_i
ci所产生的损失。基于后验概率
P
(
c
i
∣
x
)
P(c_i|x)
P(ci∣x)可获得将样本
x
x
x分类为
c
i
c_i
ci所产生的期望损失(expected loss),即在样本
x
x
x上的“条件风险”(conditional risk)。
R
(
c
i
∣
x
)
=
∑
j
=
1
N
λ
i
j
P
(
c
j
∣
x
)
R(c_i|x)=\sum_{j=1}^N\lambda_{ij}P(c_j|x)
R(ci∣x)=j=1∑NλijP(cj∣x)我们的任务是寻找一个判定准则
h
:
χ
↦
Y
h:\chi\mapsto\mathcal{Y}
h:χ↦Y以最小化总体风险
R
(
h
)
=
E
x
[
R
(
h
(
x
)
∣
x
)
]
R(h)=\Bbb{E}_x \lbrack R(h(x)|x) \rbrack
R(h)=Ex[R(h(x)∣x)]显然,对于每一个样本
x
x
x,若
h
h
h能最小化条件风险
R
(
h
(
x
)
∣
x
)
R(h(x)|x)
R(h(x)∣x),则总体风险
R
(
h
)
R(h)
R(h)也将被最小化。这就产生了贝叶斯判定准则(Bayes Decision Rule):为最小化总体风险,只需要在每个样本上选择那个能使风险
R
(
c
∣
x
)
R(c|x)
R(c∣x)最小的类别标记,即
h
∗
(
x
)
=
a
r
g
m
i
n
c
∈
Y
R
(
c
∣
x
)
h^*(x)=\mathop {argmin} \limits_{c \in \mathcal{Y}}R(c|x)
h∗(x)=c∈YargminR(c∣x) 此时,
h
∗
(
x
)
h^*(x)
h∗(x)称为贝叶斯最优分类器(Bayes optimal classifier),与之对应的总体风险
R
(
h
∗
)
R(h^*)
R(h∗)称为贝叶斯风险(Bayes risk)。
1
−
R
(
h
∗
)
1-R(h^*)
1−R(h∗)反映了分类器所能达到的最好性能,即通过机器学习所能产生的模型精度的理论上限。
极大似然估计
估计类条件概率的一种常用策略是先假定其具有某种确定的概率分布形式,再基于训练样本对概率分布的参数进行估计。具体地,记关于类别
c
c
c的类条件概率为
P
(
x
∣
c
)
P(x|c)
P(x∣c),假设
P
(
x
∣
c
)
P(x|c)
P(x∣c)具有确定的形式并且被参数向量
θ
c
\theta_c
θc唯一确定,则我们的任务就是利用训练集
D
D
D估计参数
θ
c
\theta_c
θc。为明确起见,我们将
P
(
x
∣
c
)
P(x|c)
P(x∣c)记为
P
(
x
∣
θ
c
)
P(x|\theta_c)
P(x∣θc)。
事实上,概率模型的训练过程就是参数估计(parameter estimation)过程。对于参数估计,统计学界的两个学派分别提供了不同的解决方案:频率主义学派(Frequentist)认为参数虽然未知,但却是客观存在的固定值,因此可通过优化似然函数等准则来确定参数值;贝叶斯学派(Bayesian)则认为参数是未观察到的随机变量,其本身也可有分布。本节介绍源自频率主义学派的极大似然估计(Maximum Likelihood Estimate,简称MLE),这是根据数据采样来估计概率分布参数的经典方法。
令
D
c
D_c
Dc表示训练集
D
D
D中第
c
c
c类样本组成的集合,假设这些样本是独立同分布的,则参数
θ
c
\theta_c
θc对于数据集
D
c
D_c
Dc的似然是
P
(
D
c
∣
θ
c
=
∏
x
∈
D
c
P
(
x
∣
θ
c
)
P(D_c|\theta_c=\prod \limits_{x \in D_c}P(x|\theta_c)
P(Dc∣θc=x∈Dc∏P(x∣θc)对
θ
c
\theta_c
θc进行极大似然估计,就是去寻找到能最大化似然
P
(
D
c
∣
θ
c
)
P(D_c|\theta_c)
P(Dc∣θc)的参数值
θ
c
^
\hat{\theta_c}
θc^。直观上看,极大似然估计是试图在
θ
c
\theta_c
θc所有可能的取值中,找到一个能使数据出现的“可能性”最大的值。
上式中的连乘操作易造成下溢,通常使用对数似然(log-likelihood)
L
L
(
θ
c
)
=
l
o
g
P
(
D
c
∣
θ
c
)
=
∑
x
∈
D
c
l
o
g
P
(
x
∣
θ
c
)
LL(\theta_c)=logP(D_c|\theta_c)=\sum \limits_{x \in D_c}logP(x|\theta_c)
LL(θc)=logP(Dc∣θc)=x∈Dc∑logP(x∣θc)此时参数
θ
c
\theta_c
θc的极大似然估计
θ
c
^
\hat{\theta_c}
θc^为
θ
c
^
=
a
r
g
m
a
x
θ
c
L
L
(
θ
c
)
\hat{\theta_c}=\mathop {argmax}\limits_{\theta_c}LL(\theta_c)
θc^=θcargmaxLL(θc)例如,在连续属性情形下,假设概率密度函数
p
(
x
∣
c
)
∽
N
(
μ
c
,
δ
c
2
)
p(x|c)\backsim\mathcal{N(\mu_c,\delta^2_c)}
p(x∣c)∽N(μc,δc2),则参数
μ
c
\mu_c
μc和
δ
c
2
\delta^2_c
δc2的极大似然估计为
μ
c
^
=
1
∣
D
c
∣
∑
x
∈
D
c
x
,
δ
^
c
2
=
1
∣
D
c
∣
∑
x
∈
D
c
(
x
−
μ
c
^
)
(
x
−
μ
c
^
)
T
\hat{\mu_c}=\frac{1}{|D_c|}\sum \limits_{x \in D_c}x, \\ \hat{\delta}^2_c=\frac{1}{|D_c|}\sum \limits_{x \in D_c}(x-\hat{\mu_c})(x-\hat{\mu_c})^T
μc^=∣Dc∣1x∈Dc∑x,δ^c2=∣Dc∣1x∈Dc∑(x−μc^)(x−μc^)T也就是说,通过极大似然法得到的正态分布均值就是样本均值,方差就是
(
x
−
μ
c
^
)
(
x
−
μ
c
^
)
T
(x-\hat{\mu_c})(x-\hat{\mu_c})^T
(x−μc^)(x−μc^)T的均值,这显然是一个符合直觉的结果。在离散属性情形下,也可通过类似的方式估计类条件概率。
需要注意的是,这种方法虽然能使类条件概率估计变得相对简单,但估计结果的准确性严重依赖于所假设的概率分布形式是否符合潜在的真实数据分布。在现实应用中,欲做出能较好地接近潜在真实分布假设,往往需要在一定程度上利用关于应用任务本身的经验知识,否则若仅凭“猜测”来假设概率分布形式,很可能产生误导性的结果。