关于朴素贝叶斯分类器(Naïve Bayes Classifiers)的理解以及其在scikit-learn当中的实现

最新推荐文章于 2024-05-21 16:47:25 发布

Lingus Zhang

最新推荐文章于 2024-05-21 16:47:25 发布

阅读量1.1k

点赞数 1

文章标签： scikit-learn 分类机器学习

本文链接：https://blog.csdn.net/Leiyang1711/article/details/122531151

版权

本文介绍了朴素贝叶斯分类器的工作原理，通过邮件分类问题阐述了贝叶斯决策规则和贝叶斯定理。接着讨论了如何在scikit-learn中实现朴素贝叶斯分类器，包括GaussianNB、BernoulliNB和MultinomialNB三种类型，并解释了各自适用的数据类型。

摘要由CSDN通过智能技术生成

朴素贝叶斯分类器用于分类。所以，我们首先需要了解什么是分类问题。

在机器学习中，分类指的是建立预测模型，然后针对给定的输入示例，预测其所属的类标签(class label)。例如，你收集了一些普通邮件(regular)和垃圾邮件(spam)的数据，并且抽取三个词("study", "free", "money")作为邮件的三个特征，来代表每封邮件，并且记录了它们所属的类别(category)，收集到的数据如下：

以第一条数据为例，这封邮件中，它的三个特征'study'=1, 'free'=1, 'money'=0，标签为"regular"。也就是说这封邮件它内容中出现了"study"和"free"的字样，但是没有出现"money"，它的类别是"regular"。以此类推。在这些数据的基础上，我们就可以建立一个模型，将邮件根据这三个特征分为两类。

当一封新的邮件出现时，我们就可以根据它的三个特征，也就是包不包含"study", "free", "money"这三个词，来将它归类为“regular"或者"spam"，也就是普通邮件或者垃圾邮件。

这就是分类器的一个简单的应用，我们可以用它来过滤垃圾邮件。问题是，我们该如何根据邮件的这三个特征，将邮件分类呢？例如有一封新的邮件，它的三个特征是'study'=1, 'free'=1, 'money'=1，我们应该基于什么原理，把它归类为regular或者spam呢？

接下来就要介绍贝叶斯决策规则(Bayes Decision Rule)：

$P(y|x) = \frac{P(x|y)P(y)}{P(x)}$

其中，P(y)是先验概率(prior probability)，指的是在观测前我们已知的结果概率分布。P(y|x)是后验概率(posterior probability)，指的是在观测到x后我们对结果y的估计。例如抛一枚硬币，在最开始的时候我们会觉得硬币正面或者反面的概率都是二分之一，即P(y=1)=P(y=0)=0.5。可是在之后，你观测到了硬币的一些特征（比如它的厚度、大小），在这个基础上再计算抛硬币正面的概率，用数学语言表达即为P(y|x)，x指的是你在抛硬币之前的观察。

为了计算后验概率，我们需要贝叶斯定理(Bayes Theorem)：