机器学习: 贝叶斯决策 2_贝叶斯惩罚项-CSDN博客

本文探讨了贝叶斯分类器如何实现错分概率最小化，并介绍了如何通过引入惩罚项来平衡不同类别间的误判风险。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Minimizing the Classification Error Probability

我们接下来将要证明，Bayes分类器是使得错分概率最小化的一个最佳选择，假设 $\mathbf{R_{1}}$ 是 $w_{1}$ 这一类的样本特征所在的区域，
$\mathbf{R_{2}}$ 是 $w_{2}$ 这一类的样本特征所在的区域,那么,如果一个样本特征原来是属于 $w_{2}$ 却落在区域 $\mathbf{R_{1}}$ ，
即 $\mathbf{x} \in \mathbf{R_{1}}$ ,或者一个样本特征原来是属于 $w_{1}$ 却落在区域 $\mathbf{R_{2}}$ ，
即 $\mathbf{x} \in \mathbf{R_{2}}$ ,那么这就会产生一个决策错误，即：

P e = P (x \in R 2, w 1) + P (x \in R 1, w 2)

$\begin{equation*} P_{e}=P(\mathbf{x} \in \mathbf{R_{2}}, w_{1})+P(\mathbf{x} \in \mathbf{R_{1}}, w_{2}) \end{equation*}$

其中, $P(\cdot, \cdot)$ 表示联合概率,利用前面介绍的Bayes准则，我们可以得到：

P e = P (x \in R 2 | w 1) P (w 1) + P (x \in R 1 | w 2) P (w 2) = P (w 1) \int R 2 p (x | w 1) d x + P (w 2) \int R 1 p (x | w 2) d x

$\begin{equation*} \begin{split} P_{e} & =P(\mathbf{x} \in \mathbf{R_{2}} | w_{1})P(w_{1})+P(\mathbf{x} \in \mathbf{R_{1}} | w_{2})P(w_{2}) \\ & =P(w_{1})\int_{\mathbf{R_{2}}} p(\mathbf{x}|w_{1})d\mathbf{x} +P(w_{2})\int_{\mathbf{R_{1}}} p(\mathbf{x}|w_{2})d\mathbf{x} \\ \end{split} \end{equation*}$

利用Bayes法则,可以得到:

P e = \int R 2 P (w 1 | x) p (x) d x + \int R 1 P (w 2 | x) p (x) d x

$\begin{equation*} P_{e} = \int_{\mathbf{R_{2}}} P(w_{1}|\mathbf{x})p(\mathbf{x})d\mathbf{x} +\int_{\mathbf{R_{1}}} P(w_{2}|\mathbf{x})p(\mathbf{x})d\mathbf{x} \\ \end{equation*}$

很容易可以看到，如果区域 $\mathbf{R_{1}}, \mathbf{R_{2}}$ 的划分满足如下:

R 1 : P (w 1 | x) > P (w 2 | x) R 2 : P (w 2 | x) > P (w 1 | x)

$\begin{equation*} \begin{split} R_{1}: P(w_{1}|\mathbf{x}) > P(w_{2}|\mathbf{x}) \\ R_{2}: P(w_{2}|\mathbf{x}) > P(w_{1}|\mathbf{x}) \end{split} \end{equation*}$
那么,

Pe $P_{e}$ 就能取得最小值,事实上,区域

R1,R2 $\mathbf{R_{1}}, \mathbf{R_{2}}$ 合起来可以覆盖样本特征的整个空间,
利用概率密度函数的定义,我们有

\int R 1 P (w 1 | x) p (x) d x + \int R 2 P (w 1 | x) p (x) d x = P (w 1)

$\begin{equation*} \int_{\mathbf{R_{1}}} P(w_{1}|\mathbf{x})p(\mathbf{x})d\mathbf{x}+\int_{\mathbf{R_{2}}} P(w_{1}|\mathbf{x})p(\mathbf{x})d\mathbf{x}=P(w_{1}) \end{equation*}$

综上，我们可以得到:

P e = P (w 1) - \int R 1 (P (w 1 | x) - P (w 2 | x)) p (x) d x

$\begin{equation*} P_{e}=P(w_{1})-\int_{\mathbf{R_{1}}} (P(w_{1}|x)-P(w_{2}|x))p(x)dx \end{equation*}$

这个表达式意味着，如果区域 $\mathbf{R_{1}}$ 满足 $P(w_{1}|x)>P(w_{2}|x)$ ,那么 $P_{e}$ 就会取得最小值,这也意味着区域 $\mathbf{R_{2}}$
满足 $P(w_{2}|x)>P(w_{1}|x)$ ,因为这两个区域覆盖了整个空间，并且是互补的。

到目前为止，我们讨论的都是两类的情况，但是这个结论可以很直接地推广到多类的情况，对于多分类的情况，如果:

P (w i | x) > P (w j | x) \forall j \neq i

$\begin{equation*} P(w_{i}|x) > P(w_{j}|x) \quad \forall j \neq i \end{equation*}$

那么，说明该样本特征属于 $w_{1}$ .

Minimizing the Average Risk

一般来说，错分概率不一定是最好的衡量指标，因为它对于每一类分错的概率赋予相同的权重，但在实际应用中，每一类分错的后果是不一样的，
有些分错的后果可能比其它类的后果严重，比如把恶性肿瘤判断成良性的比把良性的判断成恶性的后果要严重的多，
因此，可以对于每一类分错的概率赋予一个惩罚项用来权衡. 这里，假设 $w_{1}$ 表示恶性肿瘤这一类， $w_{2}$ 表示良性肿瘤这一类，进一步假设
$\mathbf{R_{1}}$ 和 $\mathbf{R_{2}}$ 分别表示 $w_{1}, w_{2}$ 的样本特征所在的区域。那么引入惩罚项之后，错分的概率 $P_{e}$ 可以表示为:

r = λ 12 P (w 1) \int R 2 p (x | w 1) d x + λ 21 P (w 2) \int R 1 p (x | w 2) d x

$\begin{equation*} r=\lambda_{12}P(w_{1})\int_{R_{2}}p(x|w_{1})dx+\lambda_{21}P(w_{2})\int_{R_{1}}p(x|w_{2})dx \end{equation*}$

上面的表达式说明了每一类的错分概率通过一个权重表示其对整体的贡献,在上述的假设情况下,权值 $\lambda_{12},\lambda_{21}$ 的合理设定应该
满足 $\lambda_{12}>\lambda_{21}$ ,因为把 $w_{1}$ (恶性肿瘤)错分成 $w_{2}$ (良性肿瘤)的后果要更严重.

现在我们来考虑一个M类的问题,假设 $R_{j}, j=1,2,...M$ , 表示每一类 $w_{j}$ 的样本特征所在的区域, 现在设想有一个属于 $w_{k}$ 样本特征 $x$ 落在区域
$R_{i}, i \neq k$ . 那么该样本会被判断属于 $w_{i}$ , 这样就产生一个决策错误, 一个惩罚项 $\lambda_{ki}$ ,称为loss, 与该决策错误捆绑在一起, 矩阵
$L$ , 其位置 $(k, i)$ 上有对应的惩罚项, 称为 loss 矩阵, 显然, 矩阵对角线上的值 $(k,k)$ 对应的都是决策正确的权值, 实际应用中一般都设为0, 这里为了不失一般性, 我们也把对角线上的值考虑进去, 那么某一类 $w_{k}$ 的决策风险可以表示为:

r k = \sum i = 1 M λ k i \int R i p (x | w k) d x

$\begin{equation*} r_{k}=\sum_{i=1}^{M}\lambda_{ki}\int_{R_{i}} p(x|w_{k})dx \end{equation*}$

可以看到, 上式中的积分项表示属于 $w_{k}$ 的某一样本特征被判断为属于 $w_{i}$ 的概率, 这个概率乘以 $\lambda_{ki}$ 作为加权, 我们的目标是将整个
样本特征的空间进行划分, 并且使得所有类的决策风险的平均值最小, 即:

r = \sum k = 1 M r k P (w k) = \sum i = 1 M \int R i (\sum k = 1 M λ k i p (x | w k) P (w k)) d x

$\begin{equation*} \begin{split} r & =\sum_{k=1}^{M}r_{k}P(w_{k}) \\ & =\sum_{i=1}^{M} \int_{R_{i}} \left( \sum_{k=1}^{M} \lambda_{ki}p(x|w_{k})P(w_{k}) \right)dx \end{split} \end{equation*}$

要最小, 如果上式中的每一个积分项都能取得最小值, 那么平均值就能最小, 相当于区域划分将满足如下的不等式:

x \in R i i f l i \equiv \sum k = 1 M λ k i p (x | w k) P (w k) < l j \equiv \sum k = 1 M λ k j p (x | w k) P (w k) \forall j \neq i

$\begin{equation*} x \in R_{i} \quad if \quad l_{i} \equiv \sum_{k=1}^{M} \lambda_{ki}p(x|w_{k})P(w_{k}) < l_{j} \equiv \sum_{k=1}^{M} \lambda_{kj}p(x|w_{k})P(w_{k}) \quad \forall j \neq i \end{equation*}$

对于两类的情况, 我们可以得到:

l 1 = λ 11 p (x | w 1) P (w 1) + λ 21 p (x | w 2) P (w 2) l 2 = λ 12 p (x | w 1) P (w 1) + λ 22 p (x | w 2) P (w 2)

$\begin{equation*} \begin{split} l_{1}=\lambda_{11}p(x|w_{1})P(w_{1})+\lambda_{21}p(x|w_{2})P(w_{2}) \\ l_{2}=\lambda_{12}p(x|w_{1})P(w_{1})+\lambda_{22}p(x|w_{2})P(w_{2}) \end{split} \end{equation*}$

如果 $l_{1}<l_{2}$ , 那么 $x$ 属于 $w_{1}$ , 即:

(λ 21 - λ 22) p (x | w 2) P (w 2) < (λ 12 - λ 11) p (x | w 1) P (w 1)

$\begin{equation*} (\lambda_{21}-\lambda_{22})p(x|w_{2})P(w_{2}) < (\lambda_{12}-\lambda_{11})p(x|w_{1})P(w_{1}) \end{equation*}$
一般情况下,

λij>λii $\lambda_{ij}>\lambda_{ii}$ , 因为判断正确的惩罚项应该比判断错误的惩罚项要小, 基于这个假设, 那么decision rule可以写成:

x \in w 1 (w 2) i f l 12 \equiv p ( x | w 1 ) p ( x | w 2 ) > (<) P ( w 2 ) P ( w 1 ) λ 21 - λ 22 λ 12 - λ 11

$\begin{equation*} x \in w_{1}(w_{2}) \quad if \quad l_{12} \equiv \frac{p(x|w_{1})}{p(x|w_{2})}>(<)\frac{P(w_{2})}{P(w_{1})} \frac{\lambda_{21}-\lambda_{22}}{\lambda_{12}-\lambda_{11}} \end{equation*}$

比率 $l_{12}$ 叫做似然比率, 如果我们假设 $\lambda_{11}, \lambda_{22}$ 都为0的话, 并且假定 $\lambda_{21} > \lambda_{12}$ , 那么如果满足下述不等式:

p (x | w 2) > p (x | w 1) λ 12 λ 21

$\begin{equation*} p(x|w_{2})>p(x|w_{1})\frac{\lambda_{12}}{\lambda_{21}} \end{equation*}$
则该样本属于

w2 $w_{2}$ , 这里假设两类的先验概率是相等的, 即:

P(w1)=P(w2)=1/2 $P(w_{1})=P(w_{2})=1/2$ . 上面的表达式里,

p(x|w1) $p(x|w_{1})$ 乘了一个小于1的因子, 相当于区域

R2 $R_{2}$ 增大了而区域

R1 $R_{1}$ 则相应地缩小了。

>
Sergios Theodoridis, Konstantinos Koutroumbas, “Pattern Recognition”, 4th edition, 2008, Elsevier.
Christopher M. Bishop, “Pattern Recognition and Machine Learning”, Springer, 2006.