机器学习教程之朴素贝叶斯、贝叶斯信念网络

最新推荐文章于 2024-09-12 07:41:03 发布

薛定谔的猫96

最新推荐文章于 2024-09-12 07:41:03 发布

阅读量1k

点赞数 1

分类专栏：机器学习文章标签：贝叶斯

原文链接：http://www.edemao.top/article.html?blog_id=23

版权

机器学习专栏收录该内容

18 篇文章 2 订阅

订阅专栏

在介绍朴素贝叶斯和贝叶斯信念网络之前，我们首先得知道其中涉及到的相关概念和背景知识。

概念和背景知识

条件概率

条件概率就是指已知事件B发生的条件下，事件A发生的概率（即事件A在事件B发生下的条件概率），记为

根据上面的Venn 图可以很容易清楚地知道，在事件B发生的情况下，事件A发生的概率等于P(A∩B)除以P(B)，所以条件的公式即为：

全概率公式

出了条件概率之外，还有可能会用到全概率公式。所以，我们简单介绍一下全概率公式。

假定样本空间S，是两个事件A与A'所构成。如下图：

然后在这个样本空间S中，任意一个事件B，如下图：

那么，对于事件B，它发生的概率就等于事件A和B同时发生的概率与事件A'和事件B同时发生的概率之和，即

由之前的条件概率公式可以得出A和B同时发生的概率：

所以，任意事件B的概率可以下次如下形式：

同理，可以推广到由n个事件构成的样本空间：

贝叶斯公式

对条件概率进行变形可以得到，对于任何事件A满足：P(Ai|B)P(B)=P(B|Ai)*P(Ai)，即P(Ai|B)=P(B|Ai)*P(Ai)/P(B)

由全概率公式

替换条件概率中的P(B)，得到下面的贝叶斯公式：

我们把贝叶斯公式中的P(Bi)称作时间Bi的先验概率，这是一种事件发生前的预判概率，一般基于先验知识。

而P(A|Bi)是在Bi事件发生的条件下事件A发生的概率（条件概率，这也是一种后验概率）

P(Bi|A)是在事件A发生条件下事件Bi发生的概率(条件概率，这也是一种后验概率，这一般使我们求解的目标）

属性条件独立性假设

对已知类别，假设所有属性相互独立。或者说，假设每个属性独立地对分类结果发生影响。

如果两个事件A和B是相互独立的，那么有：

X可以写成：

故p(c|x)可写成：

注意p(x)=。

由于分母是常量，与c无关，故我们计算c的各种取值的可能性时并不会对各结果的相对大小产生影响。因此可以忽略。

贝叶斯分类算法原理

朴素贝叶斯分类器

贝叶斯信念网络

贝叶斯信念网络，简称贝叶斯网络。它是由一个有向无环图和一个条件概率表所组成。其中，有向无环图是表示一组随机变量以及它们之间的条件依赖关系，每个结点代表一个随机变量，每条弧代表一个概率依赖。如果一条弧由结点X到Y，则X是Y的双亲或直接前驱，而Y是Z的后继。

条件概率表则是用来描述属性之间的联合概率分布。

举个例子吧：

上图中的西瓜问题的一种贝叶斯网结构和属性" 根蒂"的条件概率表。从图中网络结构可看出，而"根蒂"则直接依赖于"甜度"。进一步从条件概率表能得到"根蒂"对"甜度"的依赖关系，如P(根蒂=硬挺|甜度=高) =0.1。

贝叶斯网结构有效地表达了属性间的条件独立性。贝叶斯信网络的一个重要性质描述了各随机变量（节点）之间的条件独立假设：给定某一节点的双亲，则该随机变量条件独立于有向无环图中所有它的非后代。

如果是上面这个例子，则：

x3和x4在给定x1的取值时独立，x4和x5在给定x2的取值时独立。

构造与训练贝叶斯网络分为以下两步（也就是说，给你一个训练元组，要用贝叶斯信念网络进行分类，需要做的事）：

(1)确定随机变量间的拓扑关系，形成DAG。这一步通常需要领域专家完成，而想要建立一个好的拓扑结构，通常需要不断迭代和改进才可以。

(2)训练贝叶斯网络。这一步也就是要完成条件概率表的构造，如果每个随机变量的值都是可以直接观察的，那么这一步的训练是直观的，方法类似于朴素贝叶斯分类。但是通常贝叶斯网络中存在隐藏变量节点，那么训练方法就是比较复杂，例如可使用梯度下降法。

薛定谔的猫96

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

薛定谔的猫96 CSDN认证博客专家 CSDN认证企业博客

码龄6年

400: 原创

3万+: 周排名

71万+: 总排名

76万+: 访问

: 等级

8141: 积分

477: 粉丝

697: 获赞

81: 评论

4173: 收藏

私信

关注

热门文章

分类专栏

计算机网络 2篇
剑指offer 68篇
数据库 4篇
数学 1篇
Golang 4篇
开发工具 1篇
C/C++ 24篇
Python 83篇
Flask 3篇
Django 9篇
Vim 3篇
机器学习 18篇
git和github入门 5篇
量子通信和量子计算 1篇
操作系统 5篇
数据结构 6篇
计算机组成原理 7篇
算法 6篇
后端 30篇
前端 123篇
下载安装的教程 5篇
Linux运维 16篇
web 8篇
版本管理 7篇
爬虫 7篇
面试 23篇

最新评论

轻量级web开发框架：Flask 基础教程
薛定谔的猫96: 文章中有提及
轻量级web开发框架：Flask 基础教程
萨尔兹堡: 请问有Windows版本的吗
Django初步使用Celery处理耗时任务和定时任务
北风之神c: 总结的很全面，写得赞，博主用心了。 celery对目录层级文件名称格式要求太高，只适合规划新的项目，对不规则文件夹套用难度高。所以新手使用celery很仔细的建立文件夹名字、文件夹层级、python文件名字。所以网上的celery博客教程虽然很多，但是并不能学会使用，因为要运行起来需要以下6个方面都掌握好，博客文字很难表达清楚或者没有写全面以下6个方面。 celery消费任务不执行或者报错NotRegistered，与很多方面有关系，如果要别人排错，至少要发以下6方面的截图，因为与一下6点关系很大。 1)整个项目目录结构, 2）@task入参 ,3）celery的配置，4）celery的配置 include ,5）cmd命令行启动参数 --queues= 的值,6）用户在启动cmd命令行时候，用户所在的文件夹。在不规范的文件夹路径下，使用celery难度很高，一般教程都没教。 [项目文件夹目录格式不规范下的celery使用演示](https://github.com/ydf0509/celery_demo) 。此国产分布式函数调度框架 funboost python万能通用函数加速器 https://funboost.readthedocs.io/zh-cn/latest/articles/c1.html ，从用法调用难度，用户所需代码量，超高并发性能，qps控频精确程度，支持的中间件类型，任务控制方式，稳定程度等20个方面全方位超过celery。发布性能提高1000%，消费性能提高2000%。 python万能分布式函数调度框架funboost支持python所有类型的并发模式和一切知名消息队列中间件，python函数加速器，只需要一行代码调度任意函数，框架包罗万象,万能编程功能宝典，一统编程思维，与业务不绑定，适用范围广。 pip install funboost
关于浏览器输入一个网址后页面经历的过程总结
2301_81025433: 1337798922388888888
Python数据分析基础技术之pandas（史上最全面）
Aphil_D: 我觉得DataFrame.unique()实现的效果比起“查询不重复的值”更像“统计值的种类”，.nunique()就是“统计值的种数”。

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。