python贝叶斯模型_从零开始学Python--朴素贝叶斯模型（理论部分）

最新推荐文章于 2024-09-18 08:00:00 发布

好优X

最新推荐文章于 2024-09-18 08:00:00 发布

阅读量221

点赞数

文章标签： python贝叶斯模型

本文链接：https://blog.csdn.net/weixin_31874603/article/details/114465964

版权

本文介绍了朴素贝叶斯模型的理论基础，包括条件概率、全概率公式和贝叶斯公式。接着讨论了贝叶斯分类器的核心——计算样本属于特定类别的概率，并解释了如何处理不同类型的自变量数据，如连续、离散和二元类型。文章提到了高斯贝叶斯、多项式贝叶斯和伯努利贝叶斯分类器，以及它们适用的数据条件和概率计算方法。最后，鼓励读者参与讨论并期待下一期的实战案例分享。

摘要由CSDN通过智能技术生成

原标题：从零开始学Python--朴素贝叶斯模型(理论部分)

【知识铺垫】

在介绍如何使用贝叶斯概率公式计算后验概率之前，先回顾一下概率论与数理统计中的条件概率和全概率公式：

如上等式为条件概率的计算公式，表示在已知事件A的情况下事件B发生的概率，其中P(AB)表示事件A与事件B同时发生的概率。所以，根据条件概率公式得到概率的乘法公式：。

事件A的概率可以根据全概率公式计算得到：

如上等式即为全概率公式，其中事件构成了一个完备的事件组，并且每一个均大于0。该公式表示，对于任意的一个事件A来说，都可以表示成n个完备事件组与其乘积的和。

【贝叶斯公式】

在具备上述的基础知识之后，再来看看贝叶斯公式。如前文所说，贝叶斯分类器的核心就是在已知X的情况下，计算样本属于某个类别的概率，故这个条件概率的计算可以表示为：

其中，表示样本所属的某个类别。假设数据集的因变量y一共包含k个不同的类别，故根据全概率公式，可以将上式中的分母表示成。对于上面的条件概率公式而言，样本最终属于哪个类别，应该将计算所得的最大概率值对应的类别作为样本的最终分类，所以上式可以表示为：

如上公式所示，对于已知的X，朴素贝叶斯分类器就是计算样本在各分类中的最大概率值。接下来详细拆解公式中的每一个部分，为获得条件概率的最大值，寻找最终的影响因素。分母是一个常量，它与样本属于哪个类别没有直接关系，所以计算的最大值就转换成了计算分子的最大值，即项未知的话，一般会假设每个类别出现的概率相等，只需计算的最大值，然而在绝大多数情况下，是已知的，它以训练数据集中类别的频率作为先验概率，可以表示为。

所以，现在的主要任务就是计算的值，即已知某个类别的情况下自变量为某种值的概率。假设数据集一共包含p个自变量，则可以表示成，进而条件概率可以表示为：

很显然，条件联合概率值的计算还是比较复杂的，尤其是当数据集的自变量个数非常多的时候。为了使分类器在计算过程中提高速度，提出了一个假设前提，即自变量是条件独立的(自变量之间不存在相关性)，所以上面的计算公式可以重新改写为：

如上式所示，将条件联合概率转换成各条件概率的乘积，进而可以大大降低概率值的运算时长。但问题是，在很多实际项目的数据集中，很难保证自变量之间满足独立的假设条件。根据这条假设，可以得到一般性的结论，即自变量之间的独立性越强，贝叶斯分类器的效果就会越好；如果自变量之间存在相关性，就会在一定程度提高贝叶斯分类器的错误率，但通常情况下，贝叶斯分类器的效果不会低于决策树。

自变量X的数据类型可以是连续的数值型，也可以是离散的字符型，或者是仅含有0-1两种值的二元类型。通常会根据不同的数据类型选择不同的贝叶斯分类器，例如高斯贝叶斯分类器、多项式贝叶斯分类器和伯努利贝叶斯分类器。

【高斯贝叶斯分类器】

如果数据集中的自变量X均为连续的数值型，则在计算时会假设自变量服从高斯正态分布，所以自变量的条件概率可以表示成：