机器学习第7章贝叶斯分类器概念总结和简单实践

最新推荐文章于 2023-01-04 13:04:29 发布

至味清欢

最新推荐文章于 2023-01-04 13:04:29 发布

阅读量555

点赞数

分类专栏：西瓜书文章标签：贝叶斯分类极大似然

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Hey_yf/article/details/88586664

版权

本文介绍了贝叶斯分类器的基础概念，包括后验概率的计算和极大似然估计。讨论了从有限样本中计算概率的不准确性，提出了拉普拉斯平滑修正来应对这一问题。接着，解释了朴素贝叶斯和半朴素贝叶斯分类器的差异，以及如何处理属性间的依赖。最后，提到了贝叶斯网在处理高阶属性依赖时的作用，并给出了一道基于拉普拉斯修正的朴素贝叶斯分类训练及预测的习题。

摘要由CSDN通过智能技术生成

贝叶斯分类器是基于概率的计算，即如果有一个样本待预测，各属性已知，那么我们就找出符合这些属性的类别概率，把概率最大的作为该样本的label。

如何计算符合这些属性的类别概率（后验概率）呢？在概率与统计中，有一个定理，P(Y,X) = P(X)P(Y|X) = P(Y)P(X|Y)，

如果我们把X看作属性，把Y看作分类结果label，那么我们想要得到的就是在属性X已知的情况下，各类别P（Y|X）的概率，并从中选取最大的Y的label作为预测结果。

而 P(Y|X) = P(Y)P(X|Y) / P(X)，后面的三个变量可以基于样本数据得出，因此可以求解。

这还没有结束，因为从有限的数据集中得出的概率有可能是错误的，比如投一个硬币，会得到正反面，投了10次，3次正面，7次反面，那么正面的概率是0.3，但是实际上正面的概率应该是0.5啊，因此从有限的样本中计算出来的概率并不准确。

怎么办？我们假设这些样本得到的数据也服从一个分布，引入一个分布的参数θ，这时问题转化为求解一个θ，使目前我们从有限样本中得到的条件概率最大化，即得到极大似然估计。

如果预测的样本属性在训练集中没出现怎么办？这样由样本集计算出来的概率不就是0了吗？于是引入拉普拉斯平滑修正。

基于各属性完全独立的假设，成为朴素贝叶斯分类器；

但现实中属性不可能都是完全独立的，引入半朴素贝叶斯分类器，它假设有一部分属性是依赖的。引入独依赖估计ODE，即除了结果之外最多可以依赖一个其他属性。简单的独依赖是超父属性独依赖SPOD

最低0.47元/天解锁文章

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
机器学习第7章贝叶斯分类器概念总结和简单实践

贝叶斯分类器是基于概率的计算，即如果有一个样本待预测，各属性已知，那么我们就找出符合这些属性的类别概率，把概率最大的作为该样本的label。如何计算符合这些属性的类别概率（后验概率）呢？在概率与统计中，有一个定理，P(Y,X) = P(X)P(Y|X) = P(Y)P(X|Y)，如果我们把X看作属性，把Y看作分类结果label，那么我们想要得到的就是在属性X已知的情况下，各类别P（Y|X）...
复制链接

扫一扫

专栏目录

至味清欢 CSDN认证博客专家 CSDN认证企业博客

码龄7年

10: 原创

120万+: 周排名

178万+: 总排名

9434: 访问

: 等级

208: 积分

3: 粉丝

5: 获赞

4: 评论

17: 收藏

私信

关注

分类专栏

MySQL 1篇
LeetCode 1篇
西瓜书 8篇
聚类 1篇
降维 1篇
工具篇

最新评论

Windows下MySQL5.7 root 密码重置
JimmyFun: 多谢楼主！（提醒一哈各位别忘了最后再把mysql服务再打开@。@）
机器学习第9章聚类概念总结和简单实践
Saulo: 本章的距离计算是聚类学习中贯穿所有算法的核心内容，原型聚类算法中以不同的迭代形式修改原型向量。密度聚类和层次聚类让我想起了数据结构中生成最短路径。
机器学习第6章支持向量机概念总结和简单实践
豆沙糕: 谢谢分享
Windows下MySQL5.7 root 密码重置
追鑫少年: 详细，命令必须提示成功才表示执行了。其它的教程都不注意这点

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。