贝叶斯决策论

最新推荐文章于 2024-07-27 10:31:18 发布

changsoon

最新推荐文章于 2024-07-27 10:31:18 发布

阅读量3.8k

点赞数

分类专栏：贝叶斯分类器机器学习文章标签：机器学习贝叶斯分类器贝叶斯决策论

机器学习同时被 2 个专栏收录

4 篇文章 0 订阅

订阅专栏

贝叶斯分类器

2 篇文章 0 订阅

订阅专栏

本文摘自《机器学习》，清华大学出版社，周志华著

贝叶斯决策论

贝叶斯决策论是概率框架下实施决策的基本方法。对分类任务来说，在所有相关概率都已知的理想情形下，贝叶斯决策论考虑如何基于这些概率和误判损失来选择最优的类别标记。下面我们用多分类任务为例来解释其基本原理。
假设有N中可能的类别标记，即 $y = {c_1, c_1, ..., c_N}$ ， $\lambda_{ij}$ 是一个真实标记为 $c_j$ 的样本误分类为 $c_i$ 所产生的损失。基于后验概率 $P(c_i|x)$ 可获得将样本 $x$ 分类为 $c_i$ 所产生的期望损失（expected loss），即在样本 $x$ 上的“条件风险”（conditional risk）。

R(ci|x)=∑Nj=1λijP(cj|x)公式（1） $R(c_i|x) = \sum_{j=1}^{N}\lambda_{ij}P(c_j|x) \qquad 公式（1）$

我们的任务是寻找一个判定准则 $h$ ： $x\rightarrow y$ 以最小化总体风险。

R(h)=Ex[R(h(x)|ｘ)]公式（2） $R(h) = E_x[R(h(x) |ｘ)] \qquad 公式（2）$

显然，对每个样本 $x$ ，若 $h$ 能最小化条件风险 $R(h(x)|x)$ ，则总体风险也将被最小化。这就产生了贝叶斯判定准则（Bayes decision rule）：为最小化总体风险，只需在每个样本上选择哪个能使条件风险 $R(c|x)$ 最小的类别标记，即

h∗(x)=argc∈yminR(c|x)公式（3） $h^*(x) = \underset{c\in{y}}\arg \min{R(c|x)} \qquad 公式（3）$

此时， $h^*$ 称为贝叶斯最优分类器（Bayes optimal classifier），与之对应的总体风险 $R(h^*)$ 称为贝叶斯风险（Bayes risk）。 $1-R(h^*)$ 反映了分类器所能达到的最好性能，即通过机器学习所能产生的模型精度的理论上线。
具体来说，若目标是最小化分类错误率，则误判损失 $\lambda_{ij}$ 可写为：

λ i j = {0, i f i = j 1, o t h e r w i s e

$\lambda_{ij}=\left\{ \begin{aligned} 0, \qquad if \ \ i=j\\ 1, \quad otherwise \end{aligned} \right.$

此时条件风险

R(c|x)=1−P(c|x)公式（4） $R(c|x) = 1 - P(c|x) \qquad 公式（4）$

于是，最小化分类错误的贝叶斯最优分类器为

h∗(x)=argc∈ymaxP(c|x)公式（5） $h^*(x) = \underset{c\in y}\arg \max{P(c|x)} \qquad 公式（5）$

即对每个样本 $x$ ，选择能使后验概率 $P(c|x)$ 最大的类别标记。
不难看出，欲使用贝叶斯判定准则来最小化决策风险，首先要获得后验概率 $P(c|x)$ 。然而，在现实任务中这通常难以直接获得。从这个角度来看，机器学习所实现的是基于有限的训练样本集尽可能准确地估计出后验概率 $P(c|x)$ 。大体来说，主要有两种策略：给定 $x$ ，可通过直接建模 $P(c|x)$ 来预测 $c$ ，这样得到的是“判别式模型（discrimination models）”；也可以先对联合概率分布 $P(x,c)$ 建模，然后再由此获得 $P(c|x)$ ，这样得到的是“生成式模型”（generation models）。显然，前面介绍的决策树、BP神经网络、支持向量机，都可归入判别式模型的范畴。对生成式模型来说，必然考虑：

P(c|x)=P(x,c)P(x)公式（6） $P(c|x) = \frac{P(x,c)}{P(x)} \qquad 公式（6）$

基于贝叶斯定理， $P(c|x)$ 可写为：

P(c|x)=P(c)P(x|c)P(x)公式（7） $P(c|x) = \frac{P(c)P(x|c)}{P(x)} \qquad 公式（7）$

其中， $P(c)$ 是类“先验”（prior）概率； $P(x|c)$ 是样本 $x$ 相对于类标记 $c$ 的类条件概率（class-conditional probability），或称为“似然”（likelihood）； $P(x)$ 是用于归一化的“证据”（evidence）因子。对给定样本 $x$ ，证据因子 $P(x)$ 与类标记无关，因此估计 $P(c|x)$ 的问题就转化为如何基于训练数据D来估计先验 $P(c)$ 和似然 $P(x|c)$ 。
类先验概率 $P(c)$ 表达了样本空间中各类样本所占的比例，根据大数定率，当训练集包含充足的独立同分布样本时， $P(c)$ 可通过各类样本出现的频率来进行估计。
对类条件概率 $P(x|c)$ 来说，由于它涉及关于x所有属性的联合概率，直接根据样本出现的频率来估计将会遇到严重的困难。例如，假设样本的d个属性都是二值的，则样本将有 $2^d$ 种可能的取值，在现实应用中，这个值往往远大于训练样本数 $m$ ，也就是说，很多样本取值在训练集中根本没有出现，直接使用频率估计 $P(x|c)$ 显然不可行，因为“未被观测到”与“出现概率为零”通常是不同的。