机器学习基础——让你一文学会朴素贝叶斯模型

最新推荐文章于 2024-08-23 08:23:08 发布

TechFlow

最新推荐文章于 2024-08-23 08:23:08 发布

阅读量247

点赞数

分类专栏：机器学习文章标签：机器学习自然语言处理 python

本文链接：https://blog.csdn.net/TechFlow/article/details/103982865

版权

机器学习专栏收录该内容

49 篇文章 16 订阅

订阅专栏

本文深入浅出地介绍了朴素贝叶斯模型，包括先验概率、后验概率、似然估计和模型工作原理。通过实例解释了如何计算离散和连续特征的条件概率，并讨论了在实际计算中避免精度问题的方法。最后，预告了朴素贝叶斯在文本分类中的应用。

摘要由CSDN通过智能技术生成

今天这篇文章和大家聊聊朴素贝叶斯模型，这是机器学习领域非常经典的模型之一，而且非常简单，适合初学者入门。

朴素贝叶斯模型，顾名思义和贝叶斯定理肯定高度相关。之前我们在三扇门游戏的文章当中介绍过贝叶斯定理，我们先来简单回顾一下贝叶斯公式：

$P(A|B)=\frac{P(A)P(B|A)}{P(B)}$

我们把 $P (A)$ 和 $P (B)$ 当做先验概率，那么贝叶斯公式就是通过先验和条件概率推算后验概率的公式。也就是寻果溯因，我们根据已经发生的事件去探究导致事件发生的原因。而朴素贝叶斯模型正是基于这个原理，它的原理非常朴素，朴素到一句话就可以概率：当一个样本有可能属于多个类别的时候，我们简单地选择其中概率最大的那个。

所以，既然是选择样本所属的类别，显然朴素贝叶斯模型是一个分类算法。

在我们具体介绍算法原理之前，我们先来熟悉几个概念。其中几个概念在我们之前的文章当中也介绍过，这里就当做复习。

先验概率

先验概率其实很好理解，我们先不管里面”先后“这两个字。说白了，其实先验概率就是我们可以事先通过做实验计算的概率。比如抛硬币正面朝上，比如在一个路口遇到红灯，再比如明天会下雨。

这些事情，有些是我们可以通过实验得到的，有些是可以根据之前的经验估计的。在我们问题当中，这些事件的概率是相对明确的。可以认为是我们在做模型探究之前就可以确定的概率，所以称为先验概率。

后验概率

后验概率从直观上来看与先验概率相反，是我们通过实验或者是之前的经验没有办法直接获取的。它更多的指的是某个事件由于某个原因或者是另一个事件导致的概率。

举个例子来说，一个学生参加考试，能够及格的概率是可以测量的。无论通过一个学生多次考试进行测试，还是批量学生进行统计，都是可行的。但假设学生在考试之前可以选择复习或者是打游戏，显然，复习会提升学生通过的概率，打游戏可能会降低也可能变化不大，我们不得而知。假设我们知道小明已经通过了考试，想要知道他在考试之前有没有复习，这就是一个后验概率。

从逻辑上来看，它和条件概率恰好相反。条件概率是事件A发生的前提下会发生事件B的概率，而后验概率是已经知道事件B发生了，求事件A发生的概率。

似然估计

这也是一个烂大街的词，所有介绍贝叶斯的文章，没有一个不提到这个词的。但是很少有文章能够将这个概念讲解清楚。

似然的英文是likelihood，从语义上来说它和概率(probability)非常接近，可能只是翻译的时候做了区分。两者在数学公式上的表示也非常接近，都可以写成 $P(x|\theta)$ 。

其中概率求的是已经知道参数 $\theta$ ，事件x发生的概率。而似然侧重事件A发生时的参数 $\theta$ 。那么自然，似然估计函数就是通过概率分布估计参数的函数了。最大似然估计也就好理解了，就是求事件A发生时，最有可能的参数 $\theta$ 的值。

举个很简单的例子，假设我们有一个不透明的黑箱，里面有若干个黑球和若干个白球。但我们不知道到底黑球有几个白球有几个。为了探索这个比例，我们有放回地从箱子当中取出10个球，假设最终结果是7黑3白，那么请问箱子里黑球的比例是多少？

这题简直不能更简单，不是小学生的问题么？既然取了10次里面有7个黑球，那显然黑球的概率应该是70%啊，这有什么问题吗？

表面上当然毫无问题，但实际上不对。因为我们实验得到的实验结果并不代表概率本身，简单来说，箱子里黑球是70%可以出现7黑3白，箱子里黑球是50%也一样可以出现这个结果，我们怎么能判断箱子里黑球一定是70%呢？

这个时候就要用到似然函数了。

似然函数

我们把刚才黑白球的实验代入到上面的似然估计的公式当中去，实验最后得到的结果是确定的，是事件x。我们要求的，也就是黑球的比例是参数 $\theta$ 。由于我们是有放回的实验，所以每次拿出黑球的概率是不变的，根据二项分布，我们可以写出事件x发生的概率：

$P(x|\theta)=\theta^7*(1-\theta)^3=f(\theta)$

这个式子就是我们的似然函数，也叫概率函数。它反映不同的参数下，事件x发生的概率。我们要做的就是根据这个函数计算出 $f(\theta)$ 最大时 $\theta$ 的取值。

这个计算过程就很简单了，我们对 $\theta$ 求导，然后令导数等于0，然后求出此时对应的 $\theta$ 的取值。最后的结果当然是 $\theta=0.7$ 时方程有最大值。

我们也可以把 $f(\theta)$ 的函数图像画出来，直观地感受概率分布。

import numpy as np
import matplotlib.pyplot as plt

x = np.linspace(0, 1, 100)
y = np.power(x, 7) * np.power(1 - x, 3)

plt.plot(x, y)
plt.xlabel('value of theta')
plt.ylabel('value of f(theta)')
plt.show()

这也就证明了，我们直观的感受是对的。不是因为我们拿出来黑球的概率是70%箱子里黑球的比例就是70%，而是箱子里黑球比例是70%拿出来黑球占70%的概率最大。

模型详解

接下来就到了重头戏，我们还是先看贝叶斯公式：

$P(A|B)=\frac{P(A)P(B|A)}{P(B)}$

我们接下来对公式进行一个变形，我们假设与B事件有关的所有事件的集合为C。显然 $\in C$ ，假设C集合中一个有m个事件，分别写成: $C_1, C_2, \cdots, C_m$ 。

那么

$P(B)=\sum_{i=1}^mP(B|C_i)P(C_i)$

我们在追寻事件B发生的原因的时候，会追寻出所有可能导致这个结果的参数集合C，然后从其中挑选出概率最大的那个作为结果。

我们用它来分类的原理也是一样，对于一个样本x，我们会计算出它分别属于所有类别的概率，然后选择其中概率最大的一个作为最终预测的类别。这个朴素的思想就是朴素贝叶斯模型的原理。

我们假设 $x=\{a_1, a_2, \cdots, a_n\}$ ，其中的每一个a表示样本x的一个维度的特征。同样，我们还会有一个类别的集合 $C=\{y_1, y_2, \cdots, y_m\}$ ，其中的每一个y表示一个特定的类别。我们要做的就是计算出x属于各个类别y的概率，选择其中概率最大的那个作为最终的分类结果。