机器学习入门（九）贝叶斯算法

最新推荐文章于 2024-05-14 14:27:13 发布

__Fang Wei__

最新推荐文章于 2024-05-14 14:27:13 发布

阅读量524

点赞数 2

分类专栏：机器学习文章标签：机器学习贝叶斯算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/rookie_wei/article/details/84066596

版权

机器学习专栏收录该内容

12 篇文章 5 订阅

订阅专栏

--------韦访 20181112

1、概述

最近公司的事太多，累成狗，晚上都不想学习了，没办法，自己选的路，爬也要爬下去。前几天网购了gtx1080ti，比之前的950快多了，不过如果训练的batch稍大也会内存溢出。这些都是题外话了，继续机器学习，这一讲就学贝叶斯算法。

2、贝叶斯定理

下面通过一个实例来说明贝叶斯算法是个什么鬼。

假设一个班级里，男生占60%，女生占40%，男生都是短头发，女生一半是短头发，一半是长头发，求，短发的人里有多少女生。

我们假设班里总人数为U人，则，

短发的男生：U*P(Boy)*P(Short|Boy)

短发的女生：U*P(Girl)*P(Short|Girl)

上式中，P(Boy)代表是男生的概率，P(Girl)代表是女生的概率；P(Short|Boy)为条件概率，表示在Boy这个条件下，是短发的概率。P(Short|Girl)表示在Girl条件下，是短发的概率。

那么，是短发的总人数为：U*P(Boy)*P(Short|Boy)+U*P(Girl)*P(Short|Girl)

短发里的女生数为：

上式中，总人数U可以约去，分母其实就是P(Short)，如果将Girl写作A，Short写作B，则上式可以写成，

上式就是贝叶斯公式，其中，P(A)是先验概率，P(B|A)是A条件下是B的条件概率，或称似然，P(B)是用于归一化的证据因子，P(A|B)表示后验概率。

在分类任务中，对于每个样本B，选择能使后验概率P(A|B)最大的类别标记。于是，最小化分类器错误率的贝叶斯最优分类器为，

h*(B) = argmax P(A|B)

3、极大似然估计

如上图所示，假设有两个外形完全一样的箱子，两个箱子都有16个球，甲箱子有15个白球1个黑球，乙箱子有15个黑球1个白球。现在取出一个球，是黑色的，请问，球是从哪个箱子取出来的？

对于这种现象，最有可能的是从乙箱子取出来吧？这个“最有可能”就是“极大似然”的意思，这种想法称为“极大似然原理”。

再解释一遍，极大似然估计，就是在只有概率的情况下，忽略低概率事件，直接将高概率事件认为是事实的思想。

下面用公式来表示，令Dc表示训练集D中第c类样本组成的集合，假设这些样本是独立分布的，则参数θc对于数据集Dc的似然是，

对θc进行极大似然估计，就是找到使P(Dc|θc)最大的值θx。

在《机器学习入门（四）回归算法》中我们讲过，一般会把似然函数转换为求对数似然求解。

4、朴素贝叶斯分类器

我们再来看一下贝叶斯公式，

上式求解后验概率P(A|B)的难点在于，条件概率P(B|A)是所有属性上的联合概率，很难从有限的训练样本估计而得。为解决这个难题，提出了朴素贝叶斯分类器，朴素贝叶斯分类器对于已知类别，假设所有属性相互独立，所以可将上式重写为，

其中，n为属性数目，Bi为B在第i个属性上的取值。

对所有类目来说，P(B)是相同的，所以根据上面的贝叶斯最优分类器，得，

上式就是朴素贝叶斯分类器的表达式。

5、半朴素贝叶斯分类器

朴素贝叶斯分类器采用了属性条件独立性的假设，但现实中这种假设往往很难成立。于是，人们尝试对属性条件独立性假设进行一定程度的放松，由此产生了半朴素贝叶斯分类器。

半朴素贝叶斯分类器假设每个属性在类别之外最多依赖一个其他属性,这种策略称为“独依赖估计”。

不同的独依赖策略产生不同的分类器，如下图所示，

图a中，NB不是牛逼的意思，而是朴素贝叶斯分类器。图b中，假设所有属性都依赖同一个属性，这个被依赖的属性称为“超父”，图中，x1是超父属性。图c是什么我还不理解，为了避免翻车，我直接将周志华《机器学习》中的解释截图，以备以后用到再深究，

总结：

前面的机器学习博客中，我都是学完一个内容，然后，再找个例子去巩固。现在感觉这样学习进度似乎有点慢了，所以想改变一下学习的策略，先把主知识点串起来，以后再找例子来巩固。上班狗时间有限，不能像在学校那么潇洒。

如果您感觉本篇博客对您有帮助，请打开支付宝，领个红包支持一下，祝您扫到99元，谢谢～～

关注

2
点赞
踩
4

收藏

觉得还不错? 一键收藏
2
评论
机器学习入门（九）贝叶斯算法

--------韦访 201811121、概述最近公司的事太多，累成狗，晚上都不想学习了，没办法，自己选的路，爬也要爬下去。前几天网购了gtx1080ti，比之前的950快多了，不过如果训练的batch稍大也会内存溢出。这些都是题外话了，继续机器学习，这一讲就学贝叶斯算法。2、贝叶斯定理下面通过一个实例来说明贝叶斯算法是个什么鬼。假设一个班级里，男生占60%，女生占40%，男生...
复制链接

扫一扫

专栏目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。