西瓜书笔记之贝叶斯分类器

最新推荐文章于 2024-08-17 10:04:59 发布

SummerHmh

最新推荐文章于 2024-08-17 10:04:59 发布

阅读量211

点赞数

分类专栏：西瓜书笔记

本文链接：https://blog.csdn.net/SummerHmh/article/details/88998713

版权

西瓜书笔记专栏收录该内容

1 篇文章 0 订阅

订阅专栏

贝叶斯决策论

贝叶斯决策是基于相关已知概率和误判损失来选择最优的类别。

最小风险决策

决策类别空间 $C=\{c_{1},c_{2},...,c_{N}\}$ ，样本为 $x$

决策代价
$\lambda_{ij}$ 是将真实标记为为 $c_{j}$ 的样本误分为 $c_{i}$ 所产生的损失。
条件风险
基于后验概率 $p(c_{i}/x)$ 可获得将样本 $x$ 分类为 $c_{i}$ 所产生的期望损失，即在样本 $x$ 上的条件风险
$R(c_{i}/x)=\sum_{j=1}^{N}\lambda_{ij}p(c_{i}/x)\ \ \ \ \ \ (1)$
判定准则
寻找一个判定准则使得样本对应类别空间具有最小化总体风险
$R(h)=E_{x}[R(h(x)/x)]\ \ \ \ \ \ (2)$
显然对每个样本 $x$ ，若 $h$ 能最小化条件风险 $R (h (x) / x)$ ，则总体风险 $R (h)$ 也将被最小化。于是，有了贝叶斯判定准则：为最小化总体风险，只需要在每个样本上选择哪个能使条件风险 $R (h (x) / x)$ 最小的类别标记。即
$h^{*}=arg \min _{c\in C}R(c/x)\ \ \ \ \ \ (3)$
$h^{*}$ 为贝叶斯最优分类器，与之对应的 $R(h^{*})$ 称为贝叶斯风险。 $1-R(h^{*})$ 反映了分类器能达到的最好性能，即通过机器学习所能产生的模型精度的理论上限。

伯努利——最大化后验概率

二分类问题的条件风险即为分类错误率，即 $\lambda_{ij}=(i==j) ?1:0$ ，式(1)条件风险可化为 $R(c/x)=1-p(c/x)\ \ \ \ \ \ (4)$
则贝叶斯最优分类器为
$h^{*}=arg \max _{c\in C}p(c/x)\ \ \ \ \ \ (5)$
即最大化样本的后验概率。鉴于后验概率实际中难以直接获得，衍生了生成模式和判别模式这两种策略。生成模式：对联合概率 $p (x, c)$ 进行建模，然后再获得后验概率 $p (c / x)$ ；判别模型：直接建模后验概率 $p (c / x)$ ，如决策树、神经网络、SVM等。
基于贝叶斯定力，后验概率可由先验概率 $p (c)$ 和似然概率 $p (x / c)$ 获取
$p(c/x)=\frac{p(c)p(x/c)}{p(x)}\ \ \ \ \ \ (6)$
很多样本取值再训练集中根本没有出现，直接使用频率来估计似然概率 $p (x / c)$ 显然不可行，因为“未被观测到”与“出现概率为零”通常是不同的。

实际应用——极大似然估计（MLE）

概率模型的训练过程就是参数估计过程。
令 $D_{c}$ 表示训练集 $D$ 中第 $c$ 类样本组成的集合，假设这些样本是独立同分布的，则参数 $\theta _{c}$ 对于数据集 $D_{c}$ 的似然是
$p(D_{c}/\theta_{c})=\prod p(x/\theta_{c})\ \ \ \ \ \ (7)$
即极大似然估计是试图在 $\theta_{c}$ 所有可能的取值中，找到一个能使数据出现的”可能性“最大的值。
防止计算下溢，通常取对数似然。

人话……
已知：随机事件的概率分布函数
操作：根据样本估计未知的参数——即在确定的结果下，推测产生这个结果的可能参数，根据已发生的结果来估计事件的本身性质
思想：假设样本是在参数的基础上采样的，则N次采样的联合概率分布可以记为 $p(x_{1},x_{2},...,x_{N}/\theta)$ ，最有可能的值就是 $x$ 发生的联合概率最大的值，假设每次抽取独立同分布，那么联合概率可以转为连乘形式。

朴素贝叶斯分类器

假设每个属性独立地对分类结果发生影响，则式（6）可转为
$p(c/x)=\frac{p(c)p(x/c)}{p(x)}=\frac{p(c)}{p(x)}\prod_{i=1}^{D}p(x_{i}/c) \ \ \ \ \ \ (8)$
则朴素贝叶斯分类器的表达式为
$h_{nb}(x)=arg \max p(c)\prod_{i=1}^{D}p(x_{i}/c)\ \ \ \ \ (9)$
即朴素贝叶斯分类器的训练过程就是基于训练集来估计类先验概率 $p (c)$ ，并为每个属性估计条件概率 $p(x_{i}/c)$ 。
$p(c)=\frac{|D_{c}|}{|D|}\ \ \ p(x_{i}|c)=\frac{|D_{c,x_i}|}{|D|}\ \ \ \ \ (10)$
简单的用频率来表示概率，成也萧何，败也萧何~~
拉普拉斯修正——避免其他属性携带的信息被训练集中未出现的属性值”抹去“，在估计概率值时进行”平滑“，考虑未观测到的值。
$p(c)=\frac{|D_{c}|+1}{|D|+N}\ \ \ p(x_{i}|c)=\frac{|D_{c,x_i}|+1}{|D|+N_{i}}\ \ \ \ \ (11)$