【机器学习－西瓜书】七、贝叶斯分类器

最新推荐文章于 2024-07-03 10:52:25 发布

TensorSense

最新推荐文章于 2024-07-03 10:52:25 发布

阅读量4.7k

点赞数

分类专栏： machine learning 文章标签：机器学习贝叶斯分类器

本文链接：https://blog.csdn.net/u011995719/article/details/77773672

版权

machine learning 专栏收录该内容

21 篇文章 16 订阅

订阅专栏

推荐前期阅读：http://blog.csdn.net/u011995719/article/details/76732663
推荐阅读：期望损失；条件风险

7.1 贝叶斯决策论

关键词：期望损失；条件风险；贝叶斯风险；判别模式；生成模式

假设对手写体数字进行分类，共计有10种类别标记，即 $Y=｛y_{0},…,y_{9}｝$ , $\lambda _{ij}$ 是将一个真实样本标记为 $c_{j}$ 的样本错误分类为 $c_{i}$ 所产生的损失。

如 $\lambda _{17}$ 表示，把数字7认为是数字1的损失。在贝叶斯理论中，基于后验概率 $P(c_{i}\mid x)$ 来进行分类的（想了解后验概率，先验概率的请参考博客：
http://blog.csdn.net/u011995719/article/details/76732663），也就是在10个后验概率当中选取最大的那个后验概率对应的类别作为预测，例如 $P(c_{1}\mid x)$ =0.89，那么就认为样本x的分类是数字1，但是样本x真正的类别是数字7，那么这样所产生的损失为 $\lambda _{17}$ 。

将样本x分成 $c_{i}$ 的期望损失(expected loss)，也就是样本x上的条件风险（conditional risk）.二者是一个意思。条件风险公式如下： $R(c_{i}\mid x)= \sum_{j=1}^{10}\lambda_{ij}P(c_{j}\mid x)$

条件风险这个值隶属于单一样本x以及某一种类别标记，啥意思？也就是对于样本x来说，它有10个条件风险，分别是对应类别数字0 、类别数字1……类别数字9。对于类别数字0的条件风险为 $R(c_{0}\mid x)= \sum_{j=1}^{10}\lambda_{0j}P(c_{j}\mid x)$

贝叶斯分类器的任务就是寻找一个判定准则h，使得总体风险最小，总体风险为： $R(h)=E_{x}\left [ R(h(x))\mid x) \right ]$ ，显然，对每个样本x，若h能最小化条件风险 $R(c_{i}\mid x)= \sum_{j=1}^{10}\lambda_{ij}P(c_{j}\mid x)$ ，则总体风险R（h）也将被最小化。

可以得出贝叶斯准则（Bayes decision rule）：为最小化总体风险，只需在每个样本上选择那个能使条件风险最小的类别标记，即 $h^{*}(x)=\arg \min R(c\mid x)$

$h^{*}$ 称为贝叶斯最优分类器（Bayes optimal classifer），与之对应的总体风险 $R(h^{*})$ 称为贝叶斯风险（Bayes risk）， $1-R(h^{*})$ 反映了分类器能达到的最好性能

若采用0/1损失函数，那么条件风险 $R(c\mid x)=1-P(c\mid x)$ ，其中 $P(c\mid x)$ 表示将样本x判定为类别c的概率（真实类别就是c），当 $P(c\mid x)$ 这个概率越大，1- 就越小，即风险就越小。

所以最小化错误率的最优贝叶斯分类器 $h^{*}(x)=\arg \min R(c\mid x)$ ，即对样本x，选择后验概率 $P(c\mid x)$ 最大的类别标记。于是乎，贝叶斯分类器首要任务就求后验概率，然而在现实任务中很难直接求取后验概率。

求这个后验概率主要分为以下两种策略：

给定x，可直接通过建模 $P(c\mid x)$ 来预测c，这样得到的模型称之为判别式模型（discriminative models）；

2.可先对联合概率分布P（x,c）建模，然后再由此获得，此称之为生成式模型（generative models）.

决策树、神经网络、支持向量机、线性模型都属于判别式模型。而贝叶斯分类器即是生成式模型，对于生成式模型来说，必然考虑贝斯公式：
$P(c\mid x)=\frac{P(x,c)}{P(x)}=\frac{P(c)\cdot P(x \mid c)}{P(x)}$

其中P(c)称为先验概率， $P(x\mid c)$ 称之为似然（likelihood），没错，就是最大似然估计的似然！最大似然就是要这个似然最大！

P（x）是用于“归一化”的证据因子，而P（x）与类别标记无关，因此估计 $P(c\mid x)$ 的问题，就转化为如何基于训练数据集D来估计先验概率P(c) 以及条件概率 $P(x\mid c)$

先验概率P(c)表示样本空间中各类别样本所占的比例，依据大数定律，P（c）可通过各类样本出现的频率来进行估计

对于类条件概率 $P(x\mid c)$ ，涉及x所有属性的联合概率，通常很难直接求取。但是，当x中的属性是独立的情况下（属性条件独立性假设），就可以利用公式 $P(x \mid c) =\prod _{i=1}^{d}P(x_{i}\mid c)$ 轻而易举求出类条件概率 $P(x \mid c)$ ，这么做就是朴素贝叶斯分类器了，虽然属性条件独立性假设几乎是不可能的，但是这样做的效果还是不错的！接下来将介绍什么是朴素贝叶斯分类器
(http://blog.csdn.net/u011995719/article/details/77800120)

TensorSense

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
【机器学习－西瓜书】七、贝叶斯分类器

推荐前期阅读：http://blog.csdn.net/u011995719/article/details/76732663 推荐阅读：期望损失；条件风险7.1 贝叶斯决策论关键词：期望损失；条件风险；贝叶斯风险；判别模式；生成模式假设对手写体数字进行分类，共计有10种类别标记，即Y=｛y0,…,y9｝Y=｛y_{0},…,y_{9}｝, λij\lambda _{ij}是将一个真实样本标记
复制链接

扫一扫

专栏目录