朴素贝叶斯模型介绍与python实现

最新推荐文章于 2024-04-10 08:54:33 发布

林ch

最新推荐文章于 2024-04-10 08:54:33 发布

阅读量1.6k

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/linchuhai/article/details/89057502

版权

机器学习专栏收录该内容

11 篇文章 0 订阅

订阅专栏

1. 引言

朴素贝叶斯模型是基于贝叶斯定理与特征条件独立假设的分类方法，它基于特征条件独立假设学习输入和输出的联合概率分布，然后采用贝叶斯定理求出后验概率最大的类别作为预测实例的类别，是属于生成模型中的一种方法。

2. 朴素贝叶斯模型介绍

2.1 朴素贝叶斯模型介绍

对于输入空间 $\mathcal{X} \subseteq \mathbf{R}^{n}$ 为 $n$ 维向量空间，输出空间 $\mathcal{Y}=\{c_{1}, c_{2}, \cdots, c_{K} \}$ 为类标记集合。 $\in \mathcal{X}$ 为输入特征向量， $\in \mathcal{Y}$ 为输出类标记，则训练集可以表示为：
$T=\left\{\left(x_{1}, y_{1}\right),\left(x_{2}, y_{2}\right), \cdots,\left(x_{N}, y_{N}\right)\right\}$ 其中， $N$ 表示训练集的大小。

朴素贝叶斯通过训练数据集学习 $X$ 和 $Y$ 的联合概率分布 $P (X, Y)$ ，由条件概率公式我们知道：
$\times P\left(X | Y\right)$ 因此，朴素贝叶斯模型实际是将学习联合概率分布 $P (X, Y)$ 转化为学习先验概率分布 $P (Y)$ 和条件概率分布 $P\left(X | Y\right)$ ，具体的公式表达如下：

先验概率分布：
$P\left(Y=c_{k}\right), \quad k=1,2, \cdots, K$
条件概率分布：
$P\left(X=x | Y=c_{k}\right)=P\left(X^{(1)}=x^{(1)}, \cdots, X^{(n)}=x^{(n)} | Y=c_{k}\right), \quad k=1,2, \cdots, K$

为了简化条件概率分布的计算，朴素贝叶斯对其做了条件独立性的假设，这也是“朴素”二字的由来。有了条件独立性的假设后，条件概率分布可以表达为：
$\begin{aligned} P\left(X=x | Y=c_{k}\right) &=P\left(X^{(1)}=x^{(1)}, \cdots, X^{(n)}=x^{(n)} | Y=c_{k}\right) \\ &=\prod_{j=1}^{n} P\left(X^{(j)}=x^{(j)} | Y=c_{k}\right) \end{aligned}$ 这样一来，我们可以根据贝叶斯定理，对给定的输入 $x$ ，得到后验概率分布 $P\left(Y=c_{k} | X=x\right)$ ：
$P\left(Y=c_{k} | X=x\right)=\frac{P\left(X=x | Y=c_{k}\right) P\left(Y=c_{k}\right)}{\sum_{k} P\left(X=x | Y=c_{k}\right) P\left(Y=c_{k}\right)}$ 将条件概率分布代入上式可得：
$P\left(Y=c_{k} | X=x\right)=\frac{P\left(Y=c_{k}\right) \prod_{j} P\left(X^{(j)}=x^{(j)} | Y=c_{k}\right)}{\sum_{k} P\left(Y=c_{k}\right) \prod_{j} P\left(X^{(j)}=x^{(j)} | Y=c_{k}\right)}, \quad k=1,2, \cdots, K$ 因此，最终从计算得到的后验概率分布中选择概率最大的类别作为输入 $x$ 的预测类别，即：
$y=f(x)=\arg \max _{c_{k}} \frac{P\left(Y=c_{k}\right) \prod_{j} P\left(X^{(j)}=x^{(j)} | Y=c_{k}\right)}{\sum_{k} P\left(Y=c_{k}\right) \prod_{j} P\left(X^{(j)}=x^{(j)} | Y=c_{k}\right)}$ 由于对于每一个给定的输入 $x$ ，我们知道上式的分母对于每一个类别 $c_{k}$ 其实都是一样的，因此，我们只需要计算分子即可，所以上式可以进一步简化为：
$y=\arg \max _{c_{k}} P\left(Y=c_{k}\right) \prod_{j} P\left(X^{(j)}=x^{(j)} | Y=c_{k}\right)$

2.2 朴素贝叶斯的参数估计

当特征空间都是离散分布时，朴素贝叶斯的参数估计一般有两种方法，即极大似然估计和贝叶斯估计。对于给定的训练集 $T$ ，假设对于第 $j$ 个特征，其取值的集合为 $x_{i}^{(j)} \in\left\{a_{j j}, a_{j 2}, \cdots, a_{j s_{j}}\right\}$ ，其中 $a_{j l}$ 表示第 $j$ 个特征可能取的第 $l$ 个值， $\cdots, n, \quad l=1,2, \cdots, S_{j}$ ，则两种估计方法计算先验概率和条件概率的方式分别如下：

极大似然估计：
$P\left(Y=c_{k}\right)=\frac{\sum_{i=1}^{N} I\left(y_{i}=c_{k}\right)}{N}, \quad k=1,2, \cdots, K$
$P\left(X^{(j)}=a_{j l} | Y=c_{k}\right)=\frac{\sum_{i=1}^{N} I\left(x_{i}^{(j)}=a_{jl}, y_{i}=c_{k}\right)}{\sum_{i=1}^{N} I\left(y_{i}=c_{k}\right)}$
$\cdots, n ; \quad l=1,2, \cdots, S_{j} ; \quad k=1,2, \cdots, K$
贝叶斯估计：由于极大似然估计会出现概率为0的情况，会容易导致计算产生较大的误差，因此，贝叶斯估计则在极大似然估计的基础上采用平滑技术，对分子分母分别引入一项非负常数，从而使得概率不会出现0的情况，其计算公式如下：
$P_{\lambda}\left(X^{(j)}=a_{j l} | Y=c_{k}\right)=\frac{\sum_{i=1}^{N} I\left(x_{i}^{(j)}=a_{j l}, y_{i}=c_{k}\right)+\lambda}{\sum_{i=1}^{N} I\left(y_{i}=c_{k}\right)+S_{j} \lambda}$
$P_{\lambda}\left(Y=c_{k}\right)=\frac{\sum_{i=1}^{N} I\left(y_{i}=c_{k}\right)+\lambda}{N+K \lambda}$
$\cdots, n ; \quad l=1,2, \cdots, S_{j} ; \quad k=1,2, \cdots, K ; \quad \lambda>0$ $\lambda$ 的取值常取为1，此时也称为拉普拉斯平滑（Laplace smoothing）。

当特征空间含有连续型特征时，则此时对于这些特征的估计需要引入连续型概率分布来进行拟合，一般会对每个类别下的特征采用高斯分布等进行概率估计：
$P\left(x^{(j)}_{i} |Y=c_{k}\right)=\frac{1}{\sqrt{2 \pi \sigma_{y _{ck}}^{2}}} \exp \left(-\frac{\left(x^{(j)}_{i} -\mu_{y_{ck}}\right)^{2}}{2 \sigma_{y_{ck}}^{2}}\right)$ 其中， $\mu_{y_{c k}}$ 表示类别 $c_k$ 下，特征 $X^{(j)}$ 的均值， $\sigma_{y_{c k}}^{2}$ 表示类别 $c_k$ 下，特征 $X^{(j)}$ 的方差。

3. 朴素贝叶斯模型的python实现

sklearn已经支持朴素贝叶斯模型，需要注意的是，当特征中全是连续型变量时，则需要采用GaussianNB作为分类器，当特征全是离散型变量时，则采用MultinomialNB作为分类器，其中alpha参数就相当于本文提到的贝叶斯估计的 $\lambda$ 平滑项。具体的代码实现可以参见本人的github项目：