西瓜书_chapter7_贝叶斯分类器

最新推荐文章于 2024-08-17 10:04:59 发布

lirt15

最新推荐文章于 2024-08-17 10:04:59 发布

阅读量267

点赞数

分类专栏：西瓜书笔记文章标签：贝叶斯分类器机器学习

本文链接：https://blog.csdn.net/lirt15/article/details/93257301

版权

本文详细介绍了贝叶斯分类器的理论和应用，包括贝叶斯决策论、极大似然估计、朴素贝叶斯分类器、半朴素贝叶斯分类器（如SPODE、TAN和AODE）以及贝叶斯网的结构、学习和推测。文中探讨了属性条件独立性假设及其放松，并阐述了EM算法在处理隐变量时的作用。

摘要由CSDN通过智能技术生成

7.1 贝叶斯决策论

对于分类任务，贝叶斯决策论是在所有相关概率都已知的理想情形下，考虑如何基于概率和误判损失来选择最优的类别标记。
假设有N种可能的类别标记，即 $Y=\{c_1,c_2,...,c_N\}$ ， $\lambda_{ij}$ 是将一个真实标记为 $c_j$ 的样本误分类为 $c_i$ 所产生的损失，那么我们可以基于后验概率来刻画把 $x$ 分类为 $c_i$ 损失期望
$R(c_i|x)=\sum_{j=1}^N\lambda_{ij}P(c_j|x)$
我们的任务是寻找一个判定准则 $h$ ，来最小化风险
$R(h)=\mathbb{E}_x[R(h(x)|x)].$
贝叶斯判定准则：为了最小化总体风险，只需要在每个样本上选择能使条件风险 $R (c ∣ x)$ 最小的类别标记，即
$h^*(x)=\mathop{\arg\min}\limits_{c\in y} R(c|x)$
此时，我们把 $h^*$ 称为贝叶斯最优分类器，与之对应的，我们称 $R(h^*)$ 为贝叶斯风险， $1-R(h^*)$ 反映了分类器能达到的最好性能。
如果我们额目标是最小化分类错误率，那么误判损失 $\lambda_{ij}$ 可写为
$\lambda=1-\mathbb{I}(i,j)$
那么这个时候的条件风险就可以表示为
$R (c ∣ x) = 1 - p (c ∣ x)$
最优分类器就等价于
$h^*(x)=\mathop{\arg\max}\limits_{c\in y} P(c|x)$
这里给出生成式模型与判别式模型的概念。
所谓生成式模型，指的是先对 $P (c, x)$ 进行建模，然后再得到 $P (c ∣ x)$ ；而判别式模型则是直接对 $P (c ∣ x)$ 进行建模，如我们前边介绍的决策树、SVM等。
对于生成式模型，由贝叶斯公式
$P(c|x)=\frac{P(c)P(x|c)}{P(x)}=\frac{P(c,x)}{P(x)}$