(《机器学习》完整版系列)第7章 贝叶斯分类器——7.1 贝叶斯决策论(贝叶斯学派与频率学派有很大的分岐)

贝叶斯分类器是在概率框架下发展起来的,因此,学习本章需要一定的概率论知识。
贝叶斯学派与频率学派的根本分歧是:后者把未知参数 θ \theta θ看成一个未知的固定量,而前者把未知参数 θ \theta θ看成一个随机变量。

贝叶斯决策论

将分类视为决策,分类器即为决策模型( h h h),样本 x \boldsymbol{x} x的预测分类为 h ( x ) h(\boldsymbol{x}) h(x),决策的风险为
R ( h ( x )   ∣   x ) \begin{align} R(h(\boldsymbol{x})\,|\,\boldsymbol{x}) \tag{7.1} \end{align} R(h(x)x)(7.1)
其特点是:预测正确时,则风险为0;预测错时,则风险大于0,且错得越离谱风险越大,这是风险与误差的区别,若忽略这一点,则风险就是误差。

设样例为 ( x , y ) (\boldsymbol{x},y) (x,y),类别标记集为 Y = { c i } i = 1 N \mathcal{Y} =\{c_i\}_{i=1}^N Y={ci}i=1N,定义一个二维表(矩阵) ( λ i j ) ({\lambda }_{ij}) (λij),其中 λ i i = 0 {\lambda }_{ii}=0 λii=0 λ i j ( i ≠ j ) {\lambda }_{ij}(i\neq j) λij(i=j)表示将真实的 c j c_j cj类样本误分类为 c i c_i ci类时的风险,则有
R ( h ( x ) = c i   ∣   y = c j ) = λ i j \begin{align} R(h(\boldsymbol{x})=c_i\,|\,y=c_j)={\lambda }_{ij} \tag{7.2} \end{align} R(h(x)=ciy=cj)=λij(7.2)

式(7.2)是基于样例的,即: 对于样本 x \boldsymbol{x} x有唯一对应的标记 y y y和对应的预测 h ( x ) = c i h(\boldsymbol{x})=c_i h(x)=ci,从而确定了决策风险 R R R。 然而,如果对于相同的样本 x \boldsymbol{x} x可能会有不同的标记 y y y,如,咳嗽可能是不同的病,这时,
使用式(7.2)时, y = c j y=c_j y=cj是不确定的,易想到应该用某种“平均”。 设 x \boldsymbol{x} x的真实标记为 c j c_j cj的概率为 P ( c j   ∣   x ) P(c_j\,|\,x) P(cjx),这时,风险公式修正为
R ( h ( x )   ∣   x ) = ∑ j = 1 N P ( c j   ∣   x ) λ i j , ( h ( x ) = c i ) \begin{align} R(h(\boldsymbol{x})\,|\,x)=\sum_{j=1}^NP(c_j\,|\,x){\lambda }_{ij},\qquad (h(\boldsymbol{x})=c_i) \tag{7.3} \end{align} R(h(x)x)=j=1NP(cjx)λij,(h(x)=ci)(7.3)

假定有数据集 D = { ( x k , y k ) } k = 1 m D=\{(\boldsymbol{x}_k,y_k)\}_{k=1}^m D={(xk,yk)}k=1m,则可从中统计出相应的频率作为概率 P ( c j   ∣   x ) P(c_j\,|\,x) P(cjx)的估值,将式(7.3)作用于该数据集,则有决策该数据集的“总风险”
∑ k = 1 m R ( h ( x k ) = c i   ∣   x k ) = ∑ k = 1 m ∑ j = 1 N P ( c j   ∣   x k ) λ i j \begin{align} \sum_{k=1}^mR(h(\boldsymbol{x}_k)=c_i\,|\,\boldsymbol{x}_k)=\sum_{k=1}^m\sum_{j=1}^NP(c_j\,|\,\boldsymbol{x}_k){\lambda }_{ij} \tag{7.4} \end{align} k=1mR(h(xk)=cixk)=k=1mj=1NP(cjxk)λij(7.4)
显然,式(7.4)与数据集大小相关,平均一下:从总体上看每个样本的平均风险,称为“总体风险”,但“总体”还是数据集 D D D上的总体,即
R ( h , D ) = 1 ∣ D ∣ ∑ k = 1 m ∑ j = 1 N P ( c j   ∣   x k ) λ i j = 1 ∣ D ∣ ∑ k = 1 m R ( h ( x k )   ∣   x k ) , ( h ( x k ) = c i ) \begin{align} R(h,D) & =\frac{1}{|D|}\sum_{k=1}^m\sum_{j=1}^NP(c_j\,|\,\boldsymbol{x}_k){\lambda }_{ij}\notag \\ & =\frac{1}{|D|}\sum_{k=1}^mR(h(\boldsymbol{x}_k)\,|\,\boldsymbol{x}_k),\qquad (h(\boldsymbol{x}_k)=c_i) \tag{7.5} \end{align} R(h,D)=D1k=1mj=1NP(cjxk)λij=D1k=1mR(h(xk)xk),(h(xk)=ci)(7.5)

寻找最优决策就等价于寻找最小总体风险的决策。

我们先看一个数学常识:
min ⁡ ( a ( x ) + b ) = min ⁡ a ( x ) + b min ⁡ ( a ( x ) + b ( x ) ) ⩾ min ⁡ ( a ( x ) + min ⁡ b ( x ) ) = min ⁡ a ( x ) + min ⁡ b ( x ) (由式(7.6)) max ⁡ ( a ( x ) + b ) = max ⁡ a ( x ) + b max ⁡ ( a ( x ) + b ( x ) ) ⩽ max ⁡ ( a ( x ) + max ⁡ b ( x ) ) = max ⁡ a ( x ) + max ⁡ b ( x ) (由式(7.8)) \begin{align} \min( a(x)+ b) & = \min a(x)+b \tag{7.6} \\ \min(a(x)+b(x)) & \geqslant \min(a(x)+\min b(x))\notag \\ & = \min a(x)+\min b(x)\quad \text{(由式(7.6))} \tag{7.7} \\ \max( a(x)+ b) & = \max a(x)+b \tag{7.8} \\ \max(a(x)+b(x)) & \leqslant \max(a(x)+\max b(x))\notag \\ & = \max a(x)+\max b(x)\quad \text{(由式(7.8))} \tag{7.9} \end{align} min(a(x)+b)min(a(x)+b(x))max(a(x)+b)max(a(x)+b(x))=mina(x)+bmin(a(x)+minb(x))=mina(x)+minb(x)(由式(7.6)=maxa(x)+bmax(a(x)+maxb(x))=maxa(x)+maxb(x)(由式(7.8)(7.6)(7.7)(7.8)(7.9)
将其应用到式(7.5),故有
min ⁡ h R ( h , D ) = 1 ∣ D ∣ min ⁡ h ∑ k = 1 m R ( h ( x k )   ∣   x k ) ⩾ 1 ∣ D ∣ ∑ k = 1 m min ⁡ h R ( h ( x k )   ∣   x k ) , (式(7.7)推广到 ∑ ) = 1 ∣ D ∣ ∑ k = 1 m min ⁡ h ( x k ) = c i R ( c i   ∣   x k ) \begin{align} \mathop{\min}\limits_h R(h,D) & =\frac{1}{|D|}\mathop{\min}\limits_h \sum_{k=1}^mR(h(\boldsymbol{x}_k)\,|\,\boldsymbol{x}_k)\notag \\ & \geqslant \frac{1}{|D|} \sum_{k=1}^m\mathop{\min}\limits_hR(h(\boldsymbol{x}_k)\,|\,\boldsymbol{x}_k),\quad \text{(式(7.7)推广到$\sum$)}\notag \\ & =\frac{1}{|D|} \sum_{k=1}^m\mathop{\min}\limits_{h(\boldsymbol{x}_k)=c_i}R(c_i\,|\,\boldsymbol{x}_k) \tag{7.10} \end{align} hminR(h,D)=D1hmink=1mR(h(xk)xk)D1k=1mhminR(h(xk)xk),(式(7.7)推广到=D1k=1mh(xk)=ciminR(cixk)(7.10)
由式(7.10)知,最优解 h ∗ h^* h具有性质
h ∗ ( x k ) = arg ⁡ min ⁡ c i ∈ Y R ( c i   ∣   x k ) , ( h ( x k ) = c i ) \begin{align*} h^*(\boldsymbol{x}_k)=\mathop{\arg\min}\limits_{c_i\in \mathcal{Y} }R(c_i\,|\,\boldsymbol{x}_k),\quad (h(\boldsymbol{x}_k)=c_i)\notag \end{align*} h(xk)=ciYargminR(cixk),(h(xk)=ci)
简化变量的字母表示并省掉显然的 ( h ( x k ) = c i ) (h(\boldsymbol{x}_k)=c_i) (h(xk)=ci),即
h ∗ ( x ) = arg ⁡ min ⁡ c ∈ Y R ( c   ∣   x ) \begin{align} h^*(\boldsymbol{x})=\mathop{\arg\min}\limits_{c\in \mathcal{Y}}R(c\,|\,\boldsymbol{x}) \tag{7.11} \end{align} h(x)=cYargminR(cx)(7.11)

式(7.5)中,将“平均”改为“数学期望”即可消除 D D D的关系:
R ( h ) = E x   R ( h ( x )   ∣   x ) \begin{align} R(h)=\mathop{\mathbb{E} }\limits_{\boldsymbol{x}}\, R(h(\boldsymbol{x})\,|\,\boldsymbol{x}) \tag{7.12} \end{align} R(h)=xER(h(x)x)(7.12)

当样本空间有限时,将样本空间作为 D D D,则式(7.12)就变成了式(7.5),即式(7.5)为式(7.12)的特殊情况。 可将在这种特殊情况下得到的式(7.11)推广到一般情况式(7.12)(含无限样本空间)。

式(7.11)即为贝叶斯判别准则, h ∗ h^* h称为贝叶斯最优分类器。

当误判类别的风险无差别时,即【西瓜书式(7.4)】定义的0/1损失 λ i j {\lambda}_{ij} λij,也即是目标为最小化分类错误(率),则这时贝叶斯最优分类器为
h ∗ ( x ) = arg ⁡ min ⁡ c ∈ Y ( 1 − P ( c   ∣   x ) ) = arg ⁡ max ⁡ c ∈ Y P ( c   ∣   x ) = arg ⁡ max ⁡ c i , ( i = 1 , 2 , ⋯   , N ) P ( c i   ∣   x ) \begin{align} h^*(\boldsymbol{x}) & =\mathop{\arg\min}\limits_{c\in \mathcal{Y}}(1-P(c\,|\,\boldsymbol{x}))\notag \\ & =\mathop{\arg\max}\limits_{c\in \mathcal{Y}}P(c\,|\,\boldsymbol{x})\notag \\ & =\mathop{\arg\max}\limits_{c_i,(i=1,2,\cdots,N)}P(c_i\,|\,\boldsymbol{x}) \tag{7.13} \end{align} h(x)=cYargmin(1P(cx))=cYargmaxP(cx)=ci,(i=1,2,,N)argmaxP(cix)(7.13)
注意这里是 max ⁡ \max max,即平时所说的“取概率最大的进行预报”,天气预报就是这样做的。

式(7.13)称为最小化分类错误率的贝叶斯最优分类器,下面论证它是“最优”。

设有 k k k个类,为方便,以序号作为类别编号,学习器为 h ( x ) h(\boldsymbol{x}) h(x)

事件 A i A_i Ai:{样本 x \boldsymbol{x} x属于类别 i i i},则 P ( A i ) = P ( i   ∣   x ) P(A_i)=P(i\,|\,\boldsymbol{x}) P(Ai)=P(ix)

事件 B i B_i Bi:{ h h h预测样本 x \boldsymbol{x} x属于类别 i i i},则 P ( B i ) = P ( h ( x ) = i ) P(B_i)=P(h(\boldsymbol{x})=i) P(Bi)=P(h(x)=i)

事件 C i C_i Ci:{ h h h预测样本 x \boldsymbol{x} x属于类别 i i i且预测正确},则 C i = A i ⋂ B i C_i=A_i\bigcap B_i Ci=AiBi

事件 C C C:{ h h h对样本 x \boldsymbol{x} x的预测是正确},则 C = ⋃ i = 1 k C i C={\bigcup}_{i=1}^kC_i C=i=1kCi

由事件概率的加法原理和乘法原理知: h h h对样本 x \boldsymbol{x} x预测的正确率为
P ( C ) = ∑ i = 1 k P ( C i ) = ∑ i = 1 k P ( A i ) P ( B i ) = ∑ i = 1 k P ( i   ∣   x ) P ( h ( x ) = i ) ⩽ [ max ⁡ P ( i   ∣   x ) ] ∑ i = 1 k P ( h ( x ) = i ) = max ⁡ i P ( i   ∣   x ) = max ⁡ c i   P ( c i   ∣   x ) (当类别用 c i 表示时) \begin{align} P(C) & =\sum_{i=1}^kP(C_i)\notag \\ & =\sum_{i=1}^kP(A_i)P(B_i)\notag \\ & =\sum_{i=1}^kP(i\,|\,\boldsymbol{x})P(h(\boldsymbol{x})=i)\notag \\ & \leqslant [\max P(i\,|\,\boldsymbol{x})]\sum_{i=1}^kP(h(\boldsymbol{x})=i)\notag \\ & =\mathop{\max}\limits_i P(i\,|\,\boldsymbol{x}) \tag{7.14} \\ & =\mathop{\max}\limits_{c_i}\, P(c_i\,|\,\boldsymbol{x}) \qquad \text{(当类别用$c_i$表示时)} \tag{7.15} \end{align} P(C)=i=1kP(Ci)=i=1kP(Ai)P(Bi)=i=1kP(ix)P(h(x)=i)[maxP(ix)]i=1kP(h(x)=i)=imaxP(ix)=cimaxP(cix)(当类别用ci表示时)(7.14)(7.15)
式(7.14)对任意分类器都成立,而当分类器为贝叶斯最优分类器时(概率 max ⁡ c i   P ( c i   ∣   x ) \mathop{\max}\limits_{c_i}\, P(c_i\,|\,\boldsymbol{x}) cimaxP(cix)既是贝叶斯最优分类器的分类原则式(7.13),也是贝叶斯最优分类器对 x \boldsymbol{x} x分类的正确率(置信度)式(7.15)),可以证明它取等号:

h ∗ ( x ) = i ∗ h^*(\boldsymbol{x})=i^* h(x)=i
i ∗ = arg ⁡ max ⁡ i P ( i   ∣   x ) i^*=\mathop{\arg\max}\limits_iP(i\,|\,\boldsymbol{x}) i=iargmaxP(ix)
P ( i ∗   ∣   x ) = max ⁡ i P ( i   ∣   x ) P(i^*\,|\,\boldsymbol{x})=\mathop{\max}\limits_i P(i\,|\,\boldsymbol{x}) P(ix)=imaxP(ix)
由此,这时有
P ( C ) = ∑ i = 1 k P ( i   ∣   x ) P ( h ∗ ( x ) = i ) = ∑ i ≠ i ∗ P ( i   ∣   x ) P ( h ∗ ( x ) = i ) + P ( i ∗   ∣   x ) P ( h ∗ ( x ) = i ∗ ) = 0 + P ( i ∗   ∣   x ) ⋅ 1 = max ⁡ i P ( i   ∣   x ) \begin{align} P(C) & =\sum_{i=1}^kP(i\,|\,\boldsymbol{x})P(h^*(\boldsymbol{x})=i)\notag \\ & =\sum_{i\neq i^*}P(i\,|\,\boldsymbol{x})P(h^*(\boldsymbol{x})=i)+P(i^*\,|\,\boldsymbol{x})P(h^*(\boldsymbol{x})=i^*)\notag \\ & =0+P(i^*\,|\,\boldsymbol{x})\cdot 1\notag \\ & =\mathop{\max}\limits_i P(i\,|\,\boldsymbol{x}) \tag{7.16} \end{align} P(C)=i=1kP(ix)P(h(x)=i)=i=iP(ix)P(h(x)=i)+P(ix)P(h(x)=i)=0+P(ix)1=imaxP(ix)(7.16)
式(7.16)即说明贝叶斯最优分类器达到了正确率的最大值。

贝叶斯最优分类器式(7.13)只是一个分类器框架,它的实现关键是如何求 P ( c i   ∣   x ) P(c_i\,|\,\boldsymbol{x}) P(cix)——找到 P ( c i   ∣   x ) P(c_i\,|\,\boldsymbol{x}) P(cix)的表达式(公式的或表格的),本章后续的讨论主要是围绕着这个话题。

针对式(7.13)中的概率,应用贝叶斯公式,有
P ( c   ∣   x ) = P ( c ) P ( x   ∣   c ) P ( x ) \begin{align} P(c\,|\,\boldsymbol{x})=\frac{P(c)P(\boldsymbol{x}\,|\,c)}{P(\boldsymbol{x})} \tag{7.17} \end{align} P(cx)=P(x)P(c)P(xc)(7.17)
将样例分为两部分:样本 x \boldsymbol{x} x和标记 c c c,分别列出它们的概率及条件概率(共四个),式(7.17)反映了它们之间的关系式,
这些概率都有特定的名称,记忆方式:
后验 = 先验 ⋅ 似然 证据 \begin{align} \text{后验}=\frac{\text{先验}\cdot\text{似然}}{\text{证据}} \tag{7.18} \end{align} 后验=证据先验似然(7.18)

注:基于式(7.17)(式(7.18)),产生了贝叶斯学派,它与频率学派的根本分歧是:后者把未知参数 θ \theta θ看成一个未知的固定量,而前者把未知参数 θ \theta θ看成一个随机变量。 贝叶斯学派是这样处理未知参数 θ \theta θ的:(1)先随意起步:即基于在抽取样本(集) X X X之前对未知参数 θ \theta θ的认识,主观地设定其先验分布 π ( θ ) \pi (\theta ) π(θ);(2)再向目标调整:在获取样本 X X X后,由于样本 X X X包含了参数 θ \theta θ的信息,故应通过贝叶斯公式对未知参数 θ \theta θ的分布进行调整,得到未知参数 θ \theta θ的后验分布(条件分布 π ( θ   ∣   X ) \pi (\theta \,|\,X) π(θX));(3)使用后验分布:在获得未知参数 θ \theta θ的后验分布 π ( θ   ∣   X ) \pi (\theta \,|\,X) π(θX)之后,一切统计推断都必须从后验分布出发。

本文为原创,您可以:

  • 点赞(支持博主)
  • 收藏(待以后看)
  • 转发(他考研或学习,正需要)
  • 评论(或讨论)
  • 引用(支持原创)
  • 不侵权

上一篇:6.5 核对率回归和核线性判别分析
下一篇:7.2 再谈线性判别分析(高斯分布下的线性判别分析LDA实现了贝叶斯分类器)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值