CH6 贝叶斯方法

最新推荐文章于 2024-07-21 22:27:18 发布

Jin4869

最新推荐文章于 2024-07-21 22:27:18 发布

阅读量177

点赞数 1

分类专栏：机器学习文章标签： python 人工智能

本文链接：https://blog.csdn.net/Jin4869/article/details/128375042

版权

机器学习专栏收录该内容

12 篇文章 1 订阅

订阅专栏

文章目录

CH6 贝叶斯方法

CH6 贝叶斯方法

6.1 贝叶斯公式

$\frac{P(A,B)}{P(B)} = \frac{P(B|A)P(A)}{P(B)}$

6.2 朴素贝叶斯

所有特征条件独立于决策（特征独立性），即：
$P(f_1,\dots,f_d|class) = \prod^d_{i=1}P(f_i|class)$

对于连续属性可考虑为概率密度函数，假定 $p(x_i|c)\sim\mathcal{N}(\mu_{c,i},\sigma_{c,i}^2)$ ，其中 $\mu_{c,i}$ 和 $\sigma_{c,i}^2$ 分别是第c类样本在第i个属性上取值的均值和方差，则有：
$p(x_i|c) = \frac{1}{\sqrt{2\pi}\sigma_{c,i}}exp\bigg(-\frac{(x_i-\mu_{c,i})^2}{2\sigma_{c,i}^2}\bigg)$

6.3 例题

训练样本如下

在这里插入图片描述

问题：现在又来了第七个病人，是一个打喷嚏的建筑工人，请问他患上感冒的概率有多大？

6.3.1 贝叶斯

$\frac{P(打喷嚏，建筑工人|感冒)P(感冒)}{P(打喷嚏，建筑工人)}$

6.3.2 朴素贝叶斯

$\frac{P(打喷嚏|感冒)P(建筑工人|感冒)P(感冒)}{P(打喷嚏)P(建筑工人)}$

训练一个朴素贝叶斯分类器

数据集如下：
在这里插入图片描述

对测试例子进行分类
在这里插入图片描述

首先估计类先验概率P©，显然有：
P(好瓜 = 是) = $\frac{8}{17} \approx 0.471$
P(好瓜 = 否) = $\frac{9}{17} \approx 0.529$

然后，为每个属性估计条件概率 $P(x_i|c)$
在这里插入图片描述

在这里插入图片描述

于是，有：
在这里插入图片描述

由于 $\times 10^{-5}$ ，因此，朴素贝叶斯分类器将测试样本判别为好瓜。

需要注意，若某个属性值在训练集中没有与某个类同时出现过，则直接按上述方法将会出现问题。
例如，在使用西瓜数据集3.0训练朴素贝叶斯分类器时，对一个“敲声 = 清脆”的测试用例，有 $P_{清脆|是} = P(敲声 = 清脆|好瓜 = 是) = \frac{0}{8} = 0$
则计算出的概率为0，无论该样本的其他属性是什么，哪怕在其他属性上明显像好瓜，分类的结果都是否，这显然不太合理。

为了避免其他属性携带的信息被训练集中未出现的属性值“抹去”，在估计概率值时通常需要进行“平滑”，常用“拉普拉斯修正”。
令 $N$ 表示训练集D中可能的类别数， $N_i$ 表示第i个属性可能的取值数，修正得：
$P(x_i|c) = \frac{|D_{c,x_i}|+1}{|D_c|+N_i}$