（《机器学习》完整版系列）第7章贝叶斯分类器——7.1 贝叶斯决策论（贝叶斯学派与频率学派有很大的分岐）

本文链接：https://blog.csdn.net/qiy_icbc/article/details/129212515

贝叶斯分类器是在概率框架下发展起来的，因此，学习本章需要一定的概率论知识。
贝叶斯学派与频率学派的根本分歧是：后者把未知参数 $\theta$ 看成一个未知的固定量，而前者把未知参数 $\theta$ 看成一个随机变量。

贝叶斯决策论

将分类视为决策，分类器即为决策模型（ $h$ ），样本 $\boldsymbol{x}$ 的预测分类为 $h(\boldsymbol{x})$ ，决策的风险为
$\begin{align} R(h(\boldsymbol{x})\,|\,\boldsymbol{x}) \tag{7.1} \end{align}$
其特点是：预测正确时，则风险为0；预测错时，则风险大于0，且错得越离谱风险越大，这是风险与误差的区别，若忽略这一点，则风险就是误差。

设样例为 $(\boldsymbol{x},y)$ ，类别标记集为 $\mathcal{Y} =\{c_i\}_{i=1}^N$ ，定义一个二维表（矩阵） $({\lambda }_{ij})$ ，其中 ${\lambda }_{ii}=0$ 、 ${\lambda }_{ij}(i\neq j)$ 表示将真实的 $c_j$ 类样本误分类为 $c_i$ 类时的风险，则有
$\begin{align} R(h(\boldsymbol{x})=c_i\,|\,y=c_j)={\lambda }_{ij} \tag{7.2} \end{align}$

式(7.2)是基于样例的，即：对于样本 $\boldsymbol{x}$ 有唯一对应的标记 $y$ 和对应的预测 $h(\boldsymbol{x})=c_i$ ，从而确定了决策风险 $R$ 。然而，如果对于相同的样本 $\boldsymbol{x}$ 可能会有不同的标记 $y$ ，如，咳嗽可能是不同的病，这时，
使用式(7.2)时， $y=c_j$ 是不确定的，易想到应该用某种“平均”。设 $\boldsymbol{x}$ 的真实标记为 $c_j$ 的概率为 $P(c_j\,|\,x)$ ，这时，风险公式修正为
$\begin{align} R(h(\boldsymbol{x})\,|\,x)=\sum_{j=1}^NP(c_j\,|\,x){\lambda }_{ij},\qquad (h(\boldsymbol{x})=c_i) \tag{7.3} \end{align}$

假定有数据集 $D=\{(\boldsymbol{x}_k,y_k)\}_{k=1}^m$ ，则可从中统计出相应的频率作为概率 $P(c_j\,|\,x)$ 的估值，将式(7.3)作用于该数据集，则有决策该数据集的“总风险”
$\begin{align} \sum_{k=1}^mR(h(\boldsymbol{x}_k)=c_i\,|\,\boldsymbol{x}_k)=\sum_{k=1}^m\sum_{j=1}^NP(c_j\,|\,\boldsymbol{x}_k){\lambda }_{ij} \tag{7.4} \end{align}$
显然，式(7.4)与数据集大小相关，平均一下：从总体上看每个样本的平均风险，称为“总体风险”，但“总体”还是数据集 $D$ 上的总体，即
$\begin{align} R(h,D) & =\frac{1}{|D|}\sum_{k=1}^m\sum_{j=1}^NP(c_j\,|\,\boldsymbol{x}_k){\lambda }_{ij}\notag \\ & =\frac{1}{|D|}\sum_{k=1}^mR(h(\boldsymbol{x}_k)\,|\,\boldsymbol{x}_k),\qquad (h(\boldsymbol{x}_k)=c_i) \tag{7.5} \end{align}$

寻找最优决策就等价于寻找最小总体风险的决策。

我们先看一个数学常识：
$\begin{align} \min( a(x)+ b) & = \min a(x)+b \tag{7.6} \\ \min(a(x)+b(x)) & \geqslant \min(a(x)+\min b(x))\notag \\ & = \min a(x)+\min b(x)\quad \text{（由式(7.6)）} \tag{7.7} \\ \max( a(x)+ b) & = \max a(x)+b \tag{7.8} \\ \max(a(x)+b(x)) & \leqslant \max(a(x)+\max b(x))\notag \\ & = \max a(x)+\max b(x)\quad \text{（由式(7.8)）} \tag{7.9} \end{align}$
将其应用到式(7.5)，故有
$\begin{align} \mathop{\min}\limits_h R(h,D) & =\frac{1}{|D|}\mathop{\min}\limits_h \sum_{k=1}^mR(h(\boldsymbol{x}_k)\,|\,\boldsymbol{x}_k)\notag \\ & \geqslant \frac{1}{|D|} \sum_{k=1}^m\mathop{\min}\limits_hR(h(\boldsymbol{x}_k)\,|\,\boldsymbol{x}_k),\quad \text{（式(7.7)推广到$\sum$）}\notag \\ & =\frac{1}{|D|} \sum_{k=1}^m\mathop{\min}\limits_{h(\boldsymbol{x}_k)=c_i}R(c_i\,|\,\boldsymbol{x}_k) \tag{7.10} \end{align}$
由式(7.10)知，最优解 $h^*$ 具有性质
$\begin{align*} h^*(\boldsymbol{x}_k)=\mathop{\arg\min}\limits_{c_i\in \mathcal{Y} }R(c_i\,|\,\boldsymbol{x}_k),\quad (h(\boldsymbol{x}_k)=c_i)\notag \end{align*}$
简化变量的字母表示并省掉显然的 $(h(\boldsymbol{x}_k)=c_i)$ ，即
$\begin{align} h^*(\boldsymbol{x})=\mathop{\arg\min}\limits_{c\in \mathcal{Y}}R(c\,|\,\boldsymbol{x}) \tag{7.11} \end{align}$

式(7.5)中，将“平均”改为“数学期望”即可消除 $D$ 的关系：
$\begin{align} R(h)=\mathop{\mathbb{E} }\limits_{\boldsymbol{x}}\, R(h(\boldsymbol{x})\,|\,\boldsymbol{x}) \tag{7.12} \end{align}$

当样本空间有限时，将样本空间作为 $D$ ，则式(7.12)就变成了式(7.5)，即式(7.5)为式(7.12)的特殊情况。可将在这种特殊情况下得到的式(7.11)推广到一般情况式(7.12)（含无限样本空间）。

式(7.11)即为贝叶斯判别准则， $h^*$ 称为贝叶斯最优分类器。

当误判类别的风险无差别时，即【西瓜书式(7.4)】定义的0/1损失 ${\lambda}_{ij}$ ，也即是目标为最小化分类错误（率），则这时贝叶斯最优分类器为
$\begin{align} h^*(\boldsymbol{x}) & =\mathop{\arg\min}\limits_{c\in \mathcal{Y}}(1-P(c\,|\,\boldsymbol{x}))\notag \\ & =\mathop{\arg\max}\limits_{c\in \mathcal{Y}}P(c\,|\,\boldsymbol{x})\notag \\ & =\mathop{\arg\max}\limits_{c_i,(i=1,2,\cdots,N)}P(c_i\,|\,\boldsymbol{x}) \tag{7.13} \end{align}$
注意这里是 $\max$ ，即平时所说的“取概率最大的进行预报”，天气预报就是这样做的。

式(7.13)称为最小化分类错误率的贝叶斯最优分类器，下面论证它是“最优”。

设有 $k$ 个类，为方便，以序号作为类别编号，学习器为 $h(\boldsymbol{x})$ 。

事件 $A_i$ ：{样本 $\boldsymbol{x}$ 属于类别 $i$ }，则 $P(A_i)=P(i\,|\,\boldsymbol{x})$

事件 $B_i$ ：{ $h$ 预测样本 $\boldsymbol{x}$ 属于类别 $i$ }，则 $P(B_i)=P(h(\boldsymbol{x})=i)$

事件 $C_i$ ：{ $h$ 预测样本 $\boldsymbol{x}$ 属于类别 $i$ 且预测正确}，则 $C_i=A_i\bigcap B_i$

事件 $C$ ：{ $h$ 对样本 $\boldsymbol{x}$ 的预测是正确}，则 $C={\bigcup}_{i=1}^kC_i$

由事件概率的加法原理和乘法原理知： $h$ 对样本 $\boldsymbol{x}$ 预测的正确率为
$\begin{align} P(C) & =\sum_{i=1}^kP(C_i)\notag \\ & =\sum_{i=1}^kP(A_i)P(B_i)\notag \\ & =\sum_{i=1}^kP(i\,|\,\boldsymbol{x})P(h(\boldsymbol{x})=i)\notag \\ & \leqslant [\max P(i\,|\,\boldsymbol{x})]\sum_{i=1}^kP(h(\boldsymbol{x})=i)\notag \\ & =\mathop{\max}\limits_i P(i\,|\,\boldsymbol{x}) \tag{7.14} \\ & =\mathop{\max}\limits_{c_i}\, P(c_i\,|\,\boldsymbol{x}) \qquad \text{（当类别用$c_i$表示时）} \tag{7.15} \end{align}$
式(7.14)对任意分类器都成立，而当分类器为贝叶斯最优分类器时（概率 $\mathop{\max}\limits_{c_i}\, P(c_i\,|\,\boldsymbol{x})$ 既是贝叶斯最优分类器的分类原则式(7.13)，也是贝叶斯最优分类器对 $\boldsymbol{x}$ 分类的正确率（置信度）式(7.15)），可以证明它取等号：

若 $h^*(\boldsymbol{x})=i^*$
即 $i^*=\mathop{\arg\max}\limits_iP(i\,|\,\boldsymbol{x})$
则 $P(i^*\,|\,\boldsymbol{x})=\mathop{\max}\limits_i P(i\,|\,\boldsymbol{x})$
由此，这时有
$\begin{align} P(C) & =\sum_{i=1}^kP(i\,|\,\boldsymbol{x})P(h^*(\boldsymbol{x})=i)\notag \\ & =\sum_{i\neq i^*}P(i\,|\,\boldsymbol{x})P(h^*(\boldsymbol{x})=i)+P(i^*\,|\,\boldsymbol{x})P(h^*(\boldsymbol{x})=i^*)\notag \\ & =0+P(i^*\,|\,\boldsymbol{x})\cdot 1\notag \\ & =\mathop{\max}\limits_i P(i\,|\,\boldsymbol{x}) \tag{7.16} \end{align}$
式(7.16)即说明贝叶斯最优分类器达到了正确率的最大值。

贝叶斯最优分类器式(7.13)只是一个分类器框架，它的实现关键是如何求 $P(c_i\,|\,\boldsymbol{x})$ ——找到 $P(c_i\,|\,\boldsymbol{x})$ 的表达式（公式的或表格的），本章后续的讨论主要是围绕着这个话题。

针对式(7.13)中的概率，应用贝叶斯公式，有
$\begin{align} P(c\,|\,\boldsymbol{x})=\frac{P(c)P(\boldsymbol{x}\,|\,c)}{P(\boldsymbol{x})} \tag{7.17} \end{align}$
将样例分为两部分：样本 $\boldsymbol{x}$ 和标记 $c$ ，分别列出它们的概率及条件概率（共四个），式(7.17)反映了它们之间的关系式，
这些概率都有特定的名称，记忆方式：
$\begin{align} \text{后验}=\frac{\text{先验}\cdot\text{似然}}{\text{证据}} \tag{7.18} \end{align}$

注：基于式(7.17)（式(7.18)），产生了贝叶斯学派，它与频率学派的根本分歧是：后者把未知参数 $\theta$ 看成一个未知的固定量，而前者把未知参数 $\theta$ 看成一个随机变量。贝叶斯学派是这样处理未知参数 $\theta$ 的：（1）先随意起步：即基于在抽取样本（集） $X$ 之前对未知参数 $\theta$ 的认识，主观地设定其先验分布 $\pi (\theta )$ ；（2）再向目标调整：在获取样本 $X$ 后，由于样本 $X$ 包含了参数 $\theta$ 的信息，故应通过贝叶斯公式对未知参数 $\theta$ 的分布进行调整，得到未知参数 $\theta$ 的后验分布（条件分布 $\pi (\theta \,|\,X)$ ）；（3）使用后验分布：在获得未知参数 $\theta$ 的后验分布 $\pi (\theta \,|\,X)$ 之后，一切统计推断都必须从后验分布出发。