掘金笔记：朴素贝叶斯模型

最新推荐文章于 2024-09-20 20:35:41 发布

剑雨星澄

最新推荐文章于 2024-09-20 20:35:41 发布

阅读量298

点赞数

分类专栏：机器学习文章标签：朴素贝叶斯机器学习

本文链接：https://blog.csdn.net/u013942370/article/details/102675440

版权

本文深入探讨朴素贝叶斯模型，介绍了模型的基础定理、条件独立假设、主要策略、参数估计方法，如极大似然估计和拉普拉斯平滑，并讨论了高斯贝叶斯分类器和伯努利贝叶斯分类器的应用。通过分析，揭示了朴素贝叶斯模型如何利用贝叶斯定理进行分类决策，并证明了后验概率最大化等价于期望风险最小化。

摘要由CSDN通过智能技术生成

朴素贝叶斯模型

1 - 基础定理与定义

条件概率公式：
$P(A|B)=\dfrac{P(AB)}{P(B)}$
全概率公式：
$P(A)=\sum_{j=1}^N P(AB_i)=\sum_{j=1}^N P(B_i)P(A|B_i)$
贝叶斯公式：
$P(B_i|A)=\dfrac{P(AB_i)}{P(A)}=\dfrac{P(B_i)P(A|B_i)}{\sum_{j=1}^N P(B_i)P(A|B_i)}$
概率加和规则：
$P\left(X=x_i\right)=\sum_{j=1}^N P\left(X=x_i,Y=y_j\right)$

$P\left(X\right)=\sum_Y P\left(X,Y\right)$
概率乘积规则：
$P\left(X=x_i,Y=y_j\right)=P\left(Y=y_j|X=x_i\right)P\left(X=x_i\right)$

$P\left(X,Y\right)=P\left(Y|X\right)P\left(X\right)$
生成学习方法：

利用训练数据学习 $P (X ∣ Y)$ 和 $P (Y)$ 的估计，得到联合概率分布：
$P (X, Y) = P (Y) P (X ∣ Y)$
然后求得后验概率分布 $P (Y ∣ X)$ . 具体概率估计方法可以是极大斯坦估计或者贝叶斯估计。

2 - 模型简述

朴素贝叶斯( $n a i v e$ $B a y e s$ )是基于贝叶斯定理与特征条件独立假设的分类方法。

对于给定的训练数据集，首先基于条件独立假设，学习输入输出的联合概率分布；然后基于此模型，对给定的输入 $x$ ，利用贝叶斯定理，求出后验概率最大的输出类 $y$ 。

后验概率最大等价于 $0 - 1$ 损失函数时的期望风险最小化。

作为典型的生成学习方法，朴素贝叶斯实现简单，学习和预测效率都很高，是一种常用模型。

以下主要介绍经典的多项式贝叶斯分类器。

3 - 模型假设

训练集 $P (X, Y)$ 独立同分布产生
条件独立性假设。用于分类的特征，在类确定的条件下独立，即：
$\begin{aligned} P\left(X=x | Y=c_{k}\right) &=P\left(X^{(1)}=x^{(1)}, \cdots, X^{(n)}=x^{(n)} | Y=c_{k}\right) \\ &=\prod_{j=1}^{n} P\left(X^{(j)}=x^{(j)} | Y=c_{k}\right) \end{aligned}$ 这是一个较强的假设。在对性能作出一些妥协的条件下，此假设使模型包含条件概率的数量大为减少，使模型的学习与预测大为简化，从而高效而易于实现。

条件独立性假设也可视为最简单的有向概率图模型。

4 - 模型主要策略

极大似然估计
最大化后验概率

5 - 模型输入

训练集 $T=\left\{\left(x_{1}, y_{1}\right),\left(x_{2}, y_{2}\right), \cdots,\left(x_{N}, y_{N}\right)\right\}$ ， $x_i\in\mathcal{X} \subseteq \mathbf{R}^{n}$ ， $i=1,2,\dots,N$ ， $y\in\mathcal{Y}=\{c_1,c_2,\dots,c_k\}$ ， $|\mathcal{Y}|=K$ ； $x_{i}=\left(x_{i}^{(1)}, x_{i}^{(2)}, \cdots, x_{i}^{(n)}\right)^{\mathrm{T}}$