朴素贝叶斯法基本原理

最新推荐文章于 2024-05-04 18:08:53 发布

dunzane

最新推荐文章于 2024-05-04 18:08:53 发布

阅读量596

点赞数

分类专栏：机器学习文章标签：机器学习算法人工智能

本文链接：https://blog.csdn.net/weixin_43495948/article/details/127443085

版权

机器学习专栏收录该内容

16 篇文章 5 订阅

订阅专栏

第四章朴素贝叶斯法

4.1 基本介绍

朴素贝叶斯（naive Bayes）法是基于贝叶斯定理与特征条件独立假设的分类方法【注意：朴素贝叶斯法与贝叶斯估计是不同的概念】，其是一种典型的生成学习方法。生成方法由训练数据学习联合概率分布 $P (X, Y)$ ，然后求得后验概率分布 $P (Y ∣ X)$ 。具体来说，利用训练数据学习 $P (X ∣ Y)$ 和 $P (Y)$ 的估计，得到联合概率分布： $P (X, Y) = P (Y) P (X ∣ Y)$
概率估计的方法可以是极大似然估计或贝叶斯估计。

4.2 基本假设

朴素贝叶斯法的基本假设是条件独立性，即:
$$
\begin{equation*} %加表示不对公式编号
\begin{split}
P(X=x|Y=c_k)
& = P(X^{(1)}=x{(1)},…,X^{(n)}=x{(n)}|Y=c_{k)} \
& = \prod_{i=1}^n P(X^{(j)}=x{(j)}|Y=c_{k)}}
\end{split}
\end{equation}

$$
这是一个比较强的假设。由于这一假设，模型包含的条件概率的数量大为减少，朴素贝叶斯法的学习与预测大为简化。因而朴素贝叶斯法高效，且易于实现。其缺点是分类的性能不一定很高。【这里的更加朴素的理解是A被分类成正类和负类的两个事件是独立的】。如果假设朴素贝叶斯法中的假设输入变量都是条件是不独立的，那么此时，模型就变成了贝叶斯网络。

4.3 基本方法

朴素贝叶斯法分类时，对于给定的输入 $x$ ，通过学习到的模型计算后验概率分布 $P(Y=c_k|X=x)$ ，将后验概率最大的类作为 $x$ 的类的输出。后验概率计算根据贝叶斯定理进行： $P(Y=c_k|X=x)= \frac{P(X=x|Y=c_k)P(Y=c_k)}{\sum_{k}P(X=x|Y=c_k)P(Y=x_k)}$
将4.2式中假设带入到4.3中即得以下表达式：
$$
\begin{equation}\tag{k=1,2,…,K}

P(Y=c_k|X=x)=\frac{P(Y=c_k)\prod_jP(X^{(j)}=x{(j)}|Y=c_k)}{\sum\limits_kP(Y=x_k)\prod_{j}{P(X^{(j)}}=x{(j)}|Y=c_{k})}

\end{equation}
$这就是朴素贝叶斯法分类的的基本公式，朴素贝叶斯分类器可表示为$
y=f(x)=
\underset{c_k}{argmax}
\frac
{P(Y=c_k)\underset{j}{\prod}P(X^{(j)}=x{(j)}|Y=c_k)}
{\underset{k}{\sum\limits}P(Y=c_k)\underset{j}{\prod}P(X^{(j)}=x{(j)}|Y=c_j)}
$KaTeX parse error: Can't use function '$' in math mode at position 17: \dots事实上，上面表达式中分母对所有$̲c_k$都是相同的，所以有$
\begin{equation}\tag{⭐️}
y=\underset{c_k}{argmax}
P(Y=c_k)
\underset
{j}
{\prod }{P(X^{(j)}=x{(j)}|Y=c_k)}
\end{equation}
$$

同时，可证明后验概率最大化的含义就等价于风险最小化

4.4 朴素贝叶斯法的参数估计

通过上面⭐️式，可以知道需要分别求 $P(Y=c_k)$ 以及 $P(X^{(j)}=x^{(j)}|Y=c_k)$ 。这里主要有两种估计方法：极大似然估计和贝叶斯估计。

在这里插入图片描述

4.5 案列

对于上面公式的理解可能会有一点苦难，在下面的例子中分别用这两种方法来具体演示：根据下面的训练数据学习一个朴素贝叶斯分类器并确定 $x=(2,S)^{T}$ 的类标记 $y$ 。表中 $X^{(1)}和X^{(2)}$ 为特征，Y为目标。

在这里插入图片描述

4.5.1 使用极大似然估计

由上表易计算下列概率：
$P(Y=1)=\frac{9}{15}，P(Y=-1)=\frac{6}{15}$
$P(X^{(1)}=1|Y=1)=\frac{2}{9}，P(X^{(1)}=2|Y=1)=\frac{3}{9}，P(X^{(1)}=3|Y=1)=\frac{4}{9}$
$P(X^{(2)}=S|Y=1)=\frac{1}{9}，P(X^{(2)}=M|Y=1)=\frac{4}{9}，P(X^{(2)}=L|Y=1)=\frac{4}{9}$
$P(X^{(1)}=1|Y=-1)=\frac{3}{6}，P(X^{(1)}=2|Y=-1)=\frac{2}{6}，P(X^{(1)}=3|Y=-1)=\frac{1}{6}$
$P(X^{(2)}=S|Y=-1)=\frac{3}{6}，P(X^{(2)}=M|Y=-1)=\frac{2}{6}，P(X^{(2)}=L|Y=-1)=\frac{1}{6}$
对于给定的 $x=(2,S)^{T}$ 计算：
$P(Y=1)P(X^{(1)}=2|Y=1)P(X^{(2)}=S|Y=1)=\frac{9}{15}\bullet\frac{3}{9}\bullet\frac{1}{9}=\frac{1}{45}$
$P(Y=-1)P(X^{(1)=2}|Y=-1)P(X^{(2)}=S|Y=-1)=\frac{6}{15}\bullet\frac{2}{6}\bullet\frac{3}{6}=\frac{1}{15}$
显然根据上面式子的计算，后者更大，根据朴素贝叶斯法是将实例分到后验概率最大的类中的原理，故 $y = - 1$

4.5.2 使用贝叶斯估计

同理，在使用贝叶斯估计下有以下表达式：
$P(Y=1)=\frac{10}{17}，P(Y=-1)=\frac{7}{17}$
$P(X^{(1)}=2|Y=1)=\frac{4}{12}，P(X^{(1)}=2|Y=-1)=\frac{3}{9}$
$P(X^{(2)}=S|Y=1)=\frac{2}{12}，P(X^{(2)}=S|Y=-1)=\frac{4}{9}$
对于给定的 $x=(2,S)^T$ 计算:
$P(Y=1)P(X^{(1)}=2|Y=1)P(X^{(2)}=S|Y=1)=\frac{10}{17}\bullet \frac{4}{12} \bullet \frac{2}{12}=\frac{5}{153}=0.0327$
$P(Y=-1)P(X^{(1)}=2|Y=-1)P(X^{(2)}=S|Y=-1)=\frac{7}{17} \bullet \frac{3}{9} \bullet \frac{4}{9}=\frac{28}{459}=0.0610$
显然根据上面式子的计算，后者更大，根据朴素贝叶斯法是将实例分到后验概率最大的类中的原理，故 $y = - 1$

4.6 sklearn API

朴素贝叶斯

dunzane

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
朴素贝叶斯法基本原理

朴素贝叶斯（naive Bayes）法是基于贝叶斯定理与特征条件独立假设的分类方法【注意：朴素贝叶斯法与贝叶斯估计是不同的概念】，其是一种典型的生成学习方法。生成方法由训练数据学习联合概率分布P(X,Y)，然后求得后验概率分布P(Y∣X)。具体来说，利用训练数据学习P(X∣Y)和P(Y)P(X,Y)=P(Y)P(X∣Y)概率估计的方法可以是极大似然估计或贝叶斯估计。
复制链接

扫一扫