快速理解朴素贝叶斯

最新推荐文章于 2024-02-10 15:00:00 发布

崔杰同学

最新推荐文章于 2024-02-10 15:00:00 发布

阅读量493

点赞数

分类专栏：数据分析文章标签：算法贝叶斯朴素贝叶斯分类问题

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/brilliantree/article/details/102596633

版权

数据分析专栏收录该内容

3 篇文章 0 订阅

订阅专栏

贝叶斯方法被广泛应用于概率论中，也是现在机器学习算法的基础方法之一，被广泛用来处理分类和预测场景。

那么什么是贝叶斯方法呢？朴素贝叶斯又是什么呢？

这里写下一些我自己的理解。

贝叶斯

贝叶斯的基本公式是：

$P(A|B) = \frac{P(B|A) * P(A)}{P(B)}$

这个里面：

P 的含义是概率；

P(A)是先验概率，含义是 A 事件存在的概率；

P(B|A)是概率条件，含义是在A 的结果下再次出现 B 条件的概率；

P(B)是归一证据，含义是条件 B 发生的概率；

P(A|B) 是后验概率，含义是在B 条件下出现 A 的概率；

需要注意的是：

这里面的 A 一般指我们最终需要测算其概率的结果；

这里面的 B 是测算结果概率所需要的条件，一般是多个条件，因此，可以作为 $B_{n}$ 来理解，如下：

$P(A|B_{n}) = \frac{P(B_{n}|A) * P(A)}{P(B_{n})}$

朴素贝叶斯

朴素贝叶斯是贝叶斯公式的一种简化应用。最根本的区别是朴素贝叶斯源于一个假设前提：

构成概率的多个条件之间相互独立。

举个例子

条件独立例子

理解朴素贝叶斯，首先要理解什么是条件独立。

在自然界中，条件往往会在不同的维度下或多或少的有所关联。而这些关联，往往会或多或少影响结果概率。以经典的箱子摸球为例：

箱子里5 白 5 红 10 个球，求每一次摸白球的概率。

如果条件不独立的话：

第一次摸白球的概率是 5/10;

第二次摸白球的概率是 5/9 或 4/9;

第三次摸白球的概率是 5/8 或 4/8 或 3/8;

而在条件独立的情况下：

我们会假设每次摸白球的概率都是 1/2，相当于每次摸完一个球我们还会放进去，后续条件概率不受其他影响，这就是条件独立假设。

贝叶斯例子

举个例子，已知以下样本：

条件一	条件二	条件三	条件四	结果
语文好	数学好	物理好	地理好	理科
语文差	数学好	物理好	地理差	理科
语文好	数学差	物理差	地理好	文科
语文差	数学差	物理差	地理好	文科
语文好	数学差	物理差	地理差	文科
语文差	数学差	物理好	地理差	理科
语文差	数学差	物理好	地理好	文科
语文差	数学好	物理差	地理差	理科
语文好	数学差	物理差	地理差	文科
语文好	数学好	物理好	地理好	理科

求一个语文好、数学好、物理好、地理差的学生更可能选择理科还是选择文科？

此时，将该题目解析一下：

选择理科就是我们要求的结果，语文好、数学好、物理好、地理差就是给定的条件。

带入到标准贝叶斯公式：

但是考虑到标准贝叶斯的条件关联性，分子就会变成：

这里面就会面临一个很明显的问题：当我们拥有更多特征数量的时候，特征之间的关系影响运算就会变成灾难。

而在朴素贝叶斯的语境中，我们是认为条件是独立的，那么分子式就会变成：

在这种情景下，我们仅需要考虑每个独立特征发生的概率即可，不需要考虑特征之间的关联关系，这会极大减轻计算的工作量。

上述问题，带入朴素贝叶斯公式就变成了：

带入数据：

=0.096

同理，带入选择文科：

=0.003

那么显然，选择理科的可能性远大于选择文科的可能性。

其中，数学好、选择文科的样本为 0，但是我们在做概率分析的时候，不会直接代入 0 值，而是会分配一个很小的值代入，从而避免 0 概率的发生，这被称为平滑处理。

这里就有一个有意思的小细节，我们可以看到即使选择理科的可能性更大，其概率也只有 0.096 而已，这就引申出了朴素贝叶斯分类算法中的一个普遍现象：

贝叶斯分类结果是一个相对结果，而非绝对值。

我们得出一个分类结果，不是因为他的绝对值更高，而是因为相对其他分类结果的值更高。

总结

贝叶斯算法可以很好的处理有限样本情况下的概率分类问题；

朴素贝叶斯的根本前提是假设各特征条件之间相互独立；

对于部分缺失的特征，我们一般会进行平滑处理；

贝叶斯算法对样本敏感，因此我们要尽可能合理利用样本特征；

贝叶斯分类结果的一般依据是相对概率，而非绝对值。

拓展

更深度的理解可以移步该文：

http://mindhacks.cn/2008/09/21/the-magical-bayesian-method/

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。