机器学习之朴素贝叶斯分类器

最新推荐文章于 2024-08-13 23:24:48 发布

Taoist_Nie

最新推荐文章于 2024-08-13 23:24:48 发布

阅读量129

点赞数

文章标签：机器学习朴素贝叶斯分类

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_39494028/article/details/83050530

版权

朴素贝叶斯分类器

贝叶斯决策论是概率框架下实施决策的基本方法

贝叶斯公式

$P(B|A)=\dfrac{P(A|B)P(B)}{P(A)}$

对于贝叶斯公式来讲，我们是通过求出先验概率 $P (B)$ 和类条件概率 $P (A ∣ B)$ 来确定后验概率 $P (B ∣ A)$ ，通过估计后验概率的大小来判断事件所属的类别。

举个例子：假设一个班有2/3的学生是男生，有1/3的学生是女生，男生中有3/5的人戴眼镜，女生中有1/5的人戴眼镜。现有一学生戴眼镜，判断此学生是男生还是女生？

由公式可得：

先验概率： $P (男) = 2 / 3$ $P (女) = 1 / 3$

类条件概率： $P (戴 ∣ 男) = 3 / 5$ $P (戴 ∣ 女) = 1 / 5$

$\begin{aligned}P(戴)&=P(男)P(戴|男)+P(女)P(戴|女)\\&=2/3*3/5+1/3*1/5\\&=7/15\end{aligned}$

后验概率：
$\begin{aligned}P(男|戴)=\dfrac{P(男)P(戴|男)}{P{(戴)}}&=\dfrac{2/3*3/5}{7/15}\\&=6/7\end{aligned}$

$\begin{aligned}P(女|戴)=\dfrac{P(女)P(戴|女)}{P{(戴)}}&=\dfrac{1/3*1/5}{7/15}\\&=1/7\end{aligned}$

因为 $P (男 ∣ 戴) > P (女 ∣ 戴)$ 故判断此学生为男生

朴素贝叶斯分类

运用贝叶斯思想对数据集进行分类时

换成分类任务的表达式：

$P(类别|特征)=\dfrac{P(特征|类别)P(类别)}{P(特征)}$

假设有一个训练集D:

有N种可能的类别： $\gamma=\{c_1,c_2,...,c_N\}$

每个样本有 $d$ 种特征： $X=\{x_1,x_2,...,x_d\}$

则对于样本x，我们有：

$P(c|x)=\dfrac{P(c)P(x|c)}{{P(x)}}$

对于先验概率 $P (c)$ ，当有充足的独立同分布的样本时，根据大数定律，可以对先验概率进行估计，令 $D_c$ 为训练集D中第c类样本的集合。则：

$P(c)=\dfrac{|D_c|}{|D|}$

对于类条件概率 $P (x ∣ c)$ ，即 $P(x_1,x_2,...,x_d|c)$ 是在类别c下所有特征的联合概率分布，也就是说当每个特征有二值时，样本空间有 $2^d$ 种可能，远大于已有训练集，不能直接在训练集中估计。于是朴素贝叶斯的思想是，假设每个特征都独立同分布则：

$P(x|c)=\Pi_{i=1}^dP(x_i|c)$ $x_i$ 表示在样本x上第 i 个特征的取值。

在训练集上：

$P(x_i|c)=\dfrac{|D_{cx_i}|}{|D_c|}$ $D_{cx_i} 表示在第c类下第 i 个特征取x_i的样本$

此时朴素贝叶斯公式表现为：

$\begin{aligned}P(x|c)&=\dfrac{P(c)}{P(x)}\Pi_{i=1}^dP(x_i|c)\\&=\dfrac{P(c)}{P(x)}\Pi_{i=1}^d\dfrac{|D_{cx_i}|}{|D_c|}\end{aligned}$

由于类别 c 的取值于 $P (x)$ 无关，于是：

$P(x|c)\propto P(c)P(x|c)$

因此朴素贝叶斯的判定准则有：

$h_{nb}(x)=\arg\limits_{c\in\gamma}P(c)\Pi_{i=1}^dP(x_i|c)$

也就是我们要找到一个 c 使样本的后验概率最大，我们就将这个样本判定为 c 类。

在实际情况中，会出现某个特征值与训练集中的某个类同时出现过，这样会使类条件概率为0。为避免其他特征值被未在训练集中出现的特征“抹去”。我们在估计概率值时通常要进行平滑处理。

修正为：

$P(c)=\dfrac{|D_c|+1}{|D|+N}$

$P(x_i|c)=\dfrac{|D_{cx_i}|+1}{|D|+N_i}$

$N$ 表示整个训练集中可能的特征数， $N_i$ 表示第 i 个特征可能的取值数。

参考：周志华《机器学习》

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习之朴素贝叶斯分类器

朴素贝叶斯分类器贝叶斯决策论是概率框架下实施决策的基本方法贝叶斯公式P(B∣A)=P(A∣B)P(B)P(A)P(B|A)=\dfrac{P(A|B)P(B)}{P(A)}P(B∣A)=P(A)P(A∣B)P(B)对于贝叶斯公式来讲，我们是通过求出先验概率P(B)P(B)P(B) 和类条件概率P(A∣B)P(A|B)P(A∣B)来确定后验概率P(B∣A)P(B|A)P(B∣A) ，通过估...
复制链接

扫一扫

Taoist_Nie CSDN认证博客专家 CSDN认证企业博客

码龄7年

38: 原创

24万+: 周排名

120万+: 总排名

3万+: 访问

: 等级

724: 积分

28: 粉丝

34: 获赞

9: 评论

117: 收藏

私信

关注

热门文章

最新评论

存储结构与磁盘划分
CSDN-Ada助手: 非常感谢博主的分享，存储结构与磁盘划分是非常重要的话题。我觉得下一篇博客可以写一些关于RAID技术的内容，比如RAID的原理、RAID的级别、RAID的优缺点等等。这样的技术文章对其他用户也会有很大的帮助。相信博主会写得非常好，会有更多读者受益。期待您的下一篇博客！为了方便博主创作，提高生产力，CSDN上线了AI写作助手功能，就在创作编辑器右侧哦～（https://mp.csdn.net/edit?utm_source=blog_comment_recall ）诚邀您来加入测评，到此（https://activity.csdn.net/creatActivity?id=10450&utm_source=blog_comment_recall）发布测评文章即可获得「话题勋章」，同时还有机会拿定制奖牌。
贝叶斯拼写检查器
Mon0dy: 个人觉得，贝叶斯的P(D|h)应该对应了correct函数里candidates那行（四个或项相关性递减），P(h)应该对应了correct函数里max那行(词频表示概率)
新闻分类任务(LDA模型，多项分布朴素贝叶斯）
weixin_40237880: 楼主您好，可否发一个训练数据给我，就是那个val.txt文件，邮箱76326498@qq.com
新闻分类任务(LDA模型，多项分布朴素贝叶斯）
苗成鑫: 大神，能给个完整的代码吗，感激不尽
网络爬虫学习第五弹：lxml库的使用
FHLD666: 真好

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。