贝叶斯分类器是在概率框架下发展起来的,因此,学习本章需要一定的概率论知识。
贝叶斯学派与频率学派的根本分歧是:后者把未知参数
θ
\theta
θ看成一个未知的固定量,而前者把未知参数
θ
\theta
θ看成一个随机变量。
贝叶斯决策论
将分类视为决策,分类器即为决策模型(
h
h
h),样本
x
\boldsymbol{x}
x的预测分类为
h
(
x
)
h(\boldsymbol{x})
h(x),决策的风险为
R
(
h
(
x
)
∣
x
)
\begin{align} R(h(\boldsymbol{x})\,|\,\boldsymbol{x}) \tag{7.1} \end{align}
R(h(x)∣x)(7.1)
其特点是:预测正确时,则风险为0;预测错时,则风险大于0,且错得越离谱风险越大,这是风险与误差的区别,若忽略这一点,则风险就是误差。
设样例为
(
x
,
y
)
(\boldsymbol{x},y)
(x,y),类别标记集为
Y
=
{
c
i
}
i
=
1
N
\mathcal{Y} =\{c_i\}_{i=1}^N
Y={ci}i=1N,定义一个二维表(矩阵)
(
λ
i
j
)
({\lambda }_{ij})
(λij),其中
λ
i
i
=
0
{\lambda }_{ii}=0
λii=0、
λ
i
j
(
i
≠
j
)
{\lambda }_{ij}(i\neq j)
λij(i=j)表示将真实的
c
j
c_j
cj类样本误分类为
c
i
c_i
ci类时的风险,则有
R
(
h
(
x
)
=
c
i
∣
y
=
c
j
)
=
λ
i
j
\begin{align} R(h(\boldsymbol{x})=c_i\,|\,y=c_j)={\lambda }_{ij} \tag{7.2} \end{align}
R(h(x)=ci∣y=cj)=λij(7.2)
式(7.2)是基于样例的,即: 对于样本
x
\boldsymbol{x}
x有唯一对应的标记
y
y
y和对应的预测
h
(
x
)
=
c
i
h(\boldsymbol{x})=c_i
h(x)=ci,从而确定了决策风险
R
R
R。 然而,如果对于相同的样本
x
\boldsymbol{x}
x可能会有不同的标记
y
y
y,如,咳嗽可能是不同的病,这时,
使用式(7.2)时,
y
=
c
j
y=c_j
y=cj是不确定的,易想到应该用某种“平均”。 设
x
\boldsymbol{x}
x的真实标记为
c
j
c_j
cj的概率为
P
(
c
j
∣
x
)
P(c_j\,|\,x)
P(cj∣x),这时,风险公式修正为
R
(
h
(
x
)
∣
x
)
=
∑
j
=
1
N
P
(
c
j
∣
x
)
λ
i
j
,
(
h
(
x
)
=
c
i
)
\begin{align} R(h(\boldsymbol{x})\,|\,x)=\sum_{j=1}^NP(c_j\,|\,x){\lambda }_{ij},\qquad (h(\boldsymbol{x})=c_i) \tag{7.3} \end{align}
R(h(x)∣x)=j=1∑NP(cj∣x)λij,(h(x)=ci)(7.3)
假定有数据集
D
=
{
(
x
k
,
y
k
)
}
k
=
1
m
D=\{(\boldsymbol{x}_k,y_k)\}_{k=1}^m
D={(xk,yk)}k=1m,则可从中统计出相应的频率作为概率
P
(
c
j
∣
x
)
P(c_j\,|\,x)
P(cj∣x)的估值,将式(7.3)作用于该数据集,则有决策该数据集的“总风险”
∑
k
=
1
m
R
(
h
(
x
k
)
=
c
i
∣
x
k
)
=
∑
k
=
1
m
∑
j
=
1
N
P
(
c
j
∣
x
k
)
λ
i
j
\begin{align} \sum_{k=1}^mR(h(\boldsymbol{x}_k)=c_i\,|\,\boldsymbol{x}_k)=\sum_{k=1}^m\sum_{j=1}^NP(c_j\,|\,\boldsymbol{x}_k){\lambda }_{ij} \tag{7.4} \end{align}
k=1∑mR(h(xk)=ci∣xk)=k=1∑mj=1∑NP(cj∣xk)λij(7.4)
显然,式(7.4)与数据集大小相关,平均一下:从总体上看每个样本的平均风险,称为“总体风险”,但“总体”还是数据集
D
D
D上的总体,即
R
(
h
,
D
)
=
1
∣
D
∣
∑
k
=
1
m
∑
j
=
1
N
P
(
c
j
∣
x
k
)
λ
i
j
=
1
∣
D
∣
∑
k
=
1
m
R
(
h
(
x
k
)
∣
x
k
)
,
(
h
(
x
k
)
=
c
i
)
\begin{align} R(h,D) & =\frac{1}{|D|}\sum_{k=1}^m\sum_{j=1}^NP(c_j\,|\,\boldsymbol{x}_k){\lambda }_{ij}\notag \\ & =\frac{1}{|D|}\sum_{k=1}^mR(h(\boldsymbol{x}_k)\,|\,\boldsymbol{x}_k),\qquad (h(\boldsymbol{x}_k)=c_i) \tag{7.5} \end{align}
R(h,D)=∣D∣1k=1∑mj=1∑NP(cj∣xk)λij=∣D∣1k=1∑mR(h(xk)∣xk),(h(xk)=ci)(7.5)
寻找最优决策就等价于寻找最小总体风险的决策。
我们先看一个数学常识:
min
(
a
(
x
)
+
b
)
=
min
a
(
x
)
+
b
min
(
a
(
x
)
+
b
(
x
)
)
⩾
min
(
a
(
x
)
+
min
b
(
x
)
)
=
min
a
(
x
)
+
min
b
(
x
)
(由式(7.6))
max
(
a
(
x
)
+
b
)
=
max
a
(
x
)
+
b
max
(
a
(
x
)
+
b
(
x
)
)
⩽
max
(
a
(
x
)
+
max
b
(
x
)
)
=
max
a
(
x
)
+
max
b
(
x
)
(由式(7.8))
\begin{align} \min( a(x)+ b) & = \min a(x)+b \tag{7.6} \\ \min(a(x)+b(x)) & \geqslant \min(a(x)+\min b(x))\notag \\ & = \min a(x)+\min b(x)\quad \text{(由式(7.6))} \tag{7.7} \\ \max( a(x)+ b) & = \max a(x)+b \tag{7.8} \\ \max(a(x)+b(x)) & \leqslant \max(a(x)+\max b(x))\notag \\ & = \max a(x)+\max b(x)\quad \text{(由式(7.8))} \tag{7.9} \end{align}
min(a(x)+b)min(a(x)+b(x))max(a(x)+b)max(a(x)+b(x))=mina(x)+b⩾min(a(x)+minb(x))=mina(x)+minb(x)(由式(7.6))=maxa(x)+b⩽max(a(x)+maxb(x))=maxa(x)+maxb(x)(由式(7.8))(7.6)(7.7)(7.8)(7.9)
将其应用到式(7.5),故有
min
h
R
(
h
,
D
)
=
1
∣
D
∣
min
h
∑
k
=
1
m
R
(
h
(
x
k
)
∣
x
k
)
⩾
1
∣
D
∣
∑
k
=
1
m
min
h
R
(
h
(
x
k
)
∣
x
k
)
,
(式(7.7)推广到
∑
)
=
1
∣
D
∣
∑
k
=
1
m
min
h
(
x
k
)
=
c
i
R
(
c
i
∣
x
k
)
\begin{align} \mathop{\min}\limits_h R(h,D) & =\frac{1}{|D|}\mathop{\min}\limits_h \sum_{k=1}^mR(h(\boldsymbol{x}_k)\,|\,\boldsymbol{x}_k)\notag \\ & \geqslant \frac{1}{|D|} \sum_{k=1}^m\mathop{\min}\limits_hR(h(\boldsymbol{x}_k)\,|\,\boldsymbol{x}_k),\quad \text{(式(7.7)推广到$\sum$)}\notag \\ & =\frac{1}{|D|} \sum_{k=1}^m\mathop{\min}\limits_{h(\boldsymbol{x}_k)=c_i}R(c_i\,|\,\boldsymbol{x}_k) \tag{7.10} \end{align}
hminR(h,D)=∣D∣1hmink=1∑mR(h(xk)∣xk)⩾∣D∣1k=1∑mhminR(h(xk)∣xk),(式(7.7)推广到∑)=∣D∣1k=1∑mh(xk)=ciminR(ci∣xk)(7.10)
由式(7.10)知,最优解
h
∗
h^*
h∗具有性质
h
∗
(
x
k
)
=
arg
min
c
i
∈
Y
R
(
c
i
∣
x
k
)
,
(
h
(
x
k
)
=
c
i
)
\begin{align*} h^*(\boldsymbol{x}_k)=\mathop{\arg\min}\limits_{c_i\in \mathcal{Y} }R(c_i\,|\,\boldsymbol{x}_k),\quad (h(\boldsymbol{x}_k)=c_i)\notag \end{align*}
h∗(xk)=ci∈YargminR(ci∣xk),(h(xk)=ci)
简化变量的字母表示并省掉显然的
(
h
(
x
k
)
=
c
i
)
(h(\boldsymbol{x}_k)=c_i)
(h(xk)=ci),即
h
∗
(
x
)
=
arg
min
c
∈
Y
R
(
c
∣
x
)
\begin{align} h^*(\boldsymbol{x})=\mathop{\arg\min}\limits_{c\in \mathcal{Y}}R(c\,|\,\boldsymbol{x}) \tag{7.11} \end{align}
h∗(x)=c∈YargminR(c∣x)(7.11)
式(7.5)中,将“平均”改为“数学期望”即可消除
D
D
D的关系:
R
(
h
)
=
E
x
R
(
h
(
x
)
∣
x
)
\begin{align} R(h)=\mathop{\mathbb{E} }\limits_{\boldsymbol{x}}\, R(h(\boldsymbol{x})\,|\,\boldsymbol{x}) \tag{7.12} \end{align}
R(h)=xER(h(x)∣x)(7.12)
当样本空间有限时,将样本空间作为 D D D,则式(7.12)就变成了式(7.5),即式(7.5)为式(7.12)的特殊情况。 可将在这种特殊情况下得到的式(7.11)推广到一般情况式(7.12)(含无限样本空间)。
式(7.11)即为贝叶斯判别准则, h ∗ h^* h∗称为贝叶斯最优分类器。
当误判类别的风险无差别时,即【西瓜书式(7.4)】定义的0/1损失
λ
i
j
{\lambda}_{ij}
λij,也即是目标为最小化分类错误(率),则这时贝叶斯最优分类器为
h
∗
(
x
)
=
arg
min
c
∈
Y
(
1
−
P
(
c
∣
x
)
)
=
arg
max
c
∈
Y
P
(
c
∣
x
)
=
arg
max
c
i
,
(
i
=
1
,
2
,
⋯
,
N
)
P
(
c
i
∣
x
)
\begin{align} h^*(\boldsymbol{x}) & =\mathop{\arg\min}\limits_{c\in \mathcal{Y}}(1-P(c\,|\,\boldsymbol{x}))\notag \\ & =\mathop{\arg\max}\limits_{c\in \mathcal{Y}}P(c\,|\,\boldsymbol{x})\notag \\ & =\mathop{\arg\max}\limits_{c_i,(i=1,2,\cdots,N)}P(c_i\,|\,\boldsymbol{x}) \tag{7.13} \end{align}
h∗(x)=c∈Yargmin(1−P(c∣x))=c∈YargmaxP(c∣x)=ci,(i=1,2,⋯,N)argmaxP(ci∣x)(7.13)
注意这里是
max
\max
max,即平时所说的“取概率最大的进行预报”,天气预报就是这样做的。
式(7.13)称为最小化分类错误率的贝叶斯最优分类器,下面论证它是“最优”。
设有 k k k个类,为方便,以序号作为类别编号,学习器为 h ( x ) h(\boldsymbol{x}) h(x)。
事件 A i A_i Ai:{样本 x \boldsymbol{x} x属于类别 i i i},则 P ( A i ) = P ( i ∣ x ) P(A_i)=P(i\,|\,\boldsymbol{x}) P(Ai)=P(i∣x)
事件 B i B_i Bi:{ h h h预测样本 x \boldsymbol{x} x属于类别 i i i},则 P ( B i ) = P ( h ( x ) = i ) P(B_i)=P(h(\boldsymbol{x})=i) P(Bi)=P(h(x)=i)
事件 C i C_i Ci:{ h h h预测样本 x \boldsymbol{x} x属于类别 i i i且预测正确},则 C i = A i ⋂ B i C_i=A_i\bigcap B_i Ci=Ai⋂Bi
事件 C C C:{ h h h对样本 x \boldsymbol{x} x的预测是正确},则 C = ⋃ i = 1 k C i C={\bigcup}_{i=1}^kC_i C=⋃i=1kCi
由事件概率的加法原理和乘法原理知:
h
h
h对样本
x
\boldsymbol{x}
x预测的正确率为
P
(
C
)
=
∑
i
=
1
k
P
(
C
i
)
=
∑
i
=
1
k
P
(
A
i
)
P
(
B
i
)
=
∑
i
=
1
k
P
(
i
∣
x
)
P
(
h
(
x
)
=
i
)
⩽
[
max
P
(
i
∣
x
)
]
∑
i
=
1
k
P
(
h
(
x
)
=
i
)
=
max
i
P
(
i
∣
x
)
=
max
c
i
P
(
c
i
∣
x
)
(当类别用
c
i
表示时)
\begin{align} P(C) & =\sum_{i=1}^kP(C_i)\notag \\ & =\sum_{i=1}^kP(A_i)P(B_i)\notag \\ & =\sum_{i=1}^kP(i\,|\,\boldsymbol{x})P(h(\boldsymbol{x})=i)\notag \\ & \leqslant [\max P(i\,|\,\boldsymbol{x})]\sum_{i=1}^kP(h(\boldsymbol{x})=i)\notag \\ & =\mathop{\max}\limits_i P(i\,|\,\boldsymbol{x}) \tag{7.14} \\ & =\mathop{\max}\limits_{c_i}\, P(c_i\,|\,\boldsymbol{x}) \qquad \text{(当类别用$c_i$表示时)} \tag{7.15} \end{align}
P(C)=i=1∑kP(Ci)=i=1∑kP(Ai)P(Bi)=i=1∑kP(i∣x)P(h(x)=i)⩽[maxP(i∣x)]i=1∑kP(h(x)=i)=imaxP(i∣x)=cimaxP(ci∣x)(当类别用ci表示时)(7.14)(7.15)
式(7.14)对任意分类器都成立,而当分类器为贝叶斯最优分类器时(概率
max
c
i
P
(
c
i
∣
x
)
\mathop{\max}\limits_{c_i}\, P(c_i\,|\,\boldsymbol{x})
cimaxP(ci∣x)既是贝叶斯最优分类器的分类原则式(7.13),也是贝叶斯最优分类器对
x
\boldsymbol{x}
x分类的正确率(置信度)式(7.15)),可以证明它取等号:
若
h
∗
(
x
)
=
i
∗
h^*(\boldsymbol{x})=i^*
h∗(x)=i∗
即
i
∗
=
arg
max
i
P
(
i
∣
x
)
i^*=\mathop{\arg\max}\limits_iP(i\,|\,\boldsymbol{x})
i∗=iargmaxP(i∣x)
则
P
(
i
∗
∣
x
)
=
max
i
P
(
i
∣
x
)
P(i^*\,|\,\boldsymbol{x})=\mathop{\max}\limits_i P(i\,|\,\boldsymbol{x})
P(i∗∣x)=imaxP(i∣x)
由此,这时有
P
(
C
)
=
∑
i
=
1
k
P
(
i
∣
x
)
P
(
h
∗
(
x
)
=
i
)
=
∑
i
≠
i
∗
P
(
i
∣
x
)
P
(
h
∗
(
x
)
=
i
)
+
P
(
i
∗
∣
x
)
P
(
h
∗
(
x
)
=
i
∗
)
=
0
+
P
(
i
∗
∣
x
)
⋅
1
=
max
i
P
(
i
∣
x
)
\begin{align} P(C) & =\sum_{i=1}^kP(i\,|\,\boldsymbol{x})P(h^*(\boldsymbol{x})=i)\notag \\ & =\sum_{i\neq i^*}P(i\,|\,\boldsymbol{x})P(h^*(\boldsymbol{x})=i)+P(i^*\,|\,\boldsymbol{x})P(h^*(\boldsymbol{x})=i^*)\notag \\ & =0+P(i^*\,|\,\boldsymbol{x})\cdot 1\notag \\ & =\mathop{\max}\limits_i P(i\,|\,\boldsymbol{x}) \tag{7.16} \end{align}
P(C)=i=1∑kP(i∣x)P(h∗(x)=i)=i=i∗∑P(i∣x)P(h∗(x)=i)+P(i∗∣x)P(h∗(x)=i∗)=0+P(i∗∣x)⋅1=imaxP(i∣x)(7.16)
式(7.16)即说明贝叶斯最优分类器达到了正确率的最大值。
贝叶斯最优分类器式(7.13)只是一个分类器框架,它的实现关键是如何求 P ( c i ∣ x ) P(c_i\,|\,\boldsymbol{x}) P(ci∣x)——找到 P ( c i ∣ x ) P(c_i\,|\,\boldsymbol{x}) P(ci∣x)的表达式(公式的或表格的),本章后续的讨论主要是围绕着这个话题。
针对式(7.13)中的概率,应用贝叶斯公式,有
P
(
c
∣
x
)
=
P
(
c
)
P
(
x
∣
c
)
P
(
x
)
\begin{align} P(c\,|\,\boldsymbol{x})=\frac{P(c)P(\boldsymbol{x}\,|\,c)}{P(\boldsymbol{x})} \tag{7.17} \end{align}
P(c∣x)=P(x)P(c)P(x∣c)(7.17)
将样例分为两部分:样本
x
\boldsymbol{x}
x和标记
c
c
c,分别列出它们的概率及条件概率(共四个),式(7.17)反映了它们之间的关系式,
这些概率都有特定的名称,记忆方式:
后验
=
先验
⋅
似然
证据
\begin{align} \text{后验}=\frac{\text{先验}\cdot\text{似然}}{\text{证据}} \tag{7.18} \end{align}
后验=证据先验⋅似然(7.18)
注:基于式(7.17)(式(7.18)),产生了贝叶斯学派,它与频率学派的根本分歧是:后者把未知参数 θ \theta θ看成一个未知的固定量,而前者把未知参数 θ \theta θ看成一个随机变量。 贝叶斯学派是这样处理未知参数 θ \theta θ的:(1)先随意起步:即基于在抽取样本(集) X X X之前对未知参数 θ \theta θ的认识,主观地设定其先验分布 π ( θ ) \pi (\theta ) π(θ);(2)再向目标调整:在获取样本 X X X后,由于样本 X X X包含了参数 θ \theta θ的信息,故应通过贝叶斯公式对未知参数 θ \theta θ的分布进行调整,得到未知参数 θ \theta θ的后验分布(条件分布 π ( θ ∣ X ) \pi (\theta \,|\,X) π(θ∣X));(3)使用后验分布:在获得未知参数 θ \theta θ的后验分布 π ( θ ∣ X ) \pi (\theta \,|\,X) π(θ∣X)之后,一切统计推断都必须从后验分布出发。
本文为原创,您可以:
- 点赞(支持博主)
- 收藏(待以后看)
- 转发(他考研或学习,正需要)
- 评论(或讨论)
- 引用(支持原创)
- 不侵权
上一篇:6.5 核对率回归和核线性判别分析
下一篇:7.2 再谈线性判别分析(高斯分布下的线性判别分析LDA实现了贝叶斯分类器)