朴素贝叶斯分类器详解

最新推荐文章于 2024-07-20 21:16:46 发布

梦家

最新推荐文章于 2024-07-20 21:16:46 发布

阅读量451

点赞数

分类专栏： machine learning 文章标签：机器学习人工智能算法深度学习朴素贝叶斯分类器

本文链接：https://blog.csdn.net/DreamHome_S/article/details/105611136

版权

20 篇文章 1 订阅

订阅专栏

文章首发于朴素贝叶斯分类器详解 | 隐舍

已知集合： $C=\{y_1, y_2, ..., y_n\}$ 和 $I=\{x_1, x_2, ..., x_m\}$ ，确定映射规则 $y = f (x)$ , 使得任意 $x_i\in I$ 有且仅有一个 $y_j\in C$ 使得 $y_j=f(x_i)$ 成立。

条件概率： $P (A ∣ B)$ 表示事件B发生的前提下事件A发生的概率——条件概率。计算方式： $P(A|B)=\frac{P(AB)}{P(B)}$

贝叶斯定理定义如下：
$P(B|A)=\frac{P(A|B)P(B)}{P(A)}$

定义如下：

主要过程在于如何计算第三步中的条件概率，如下：

找到一个已知分类的待分类项集合，此集合为训练集。
统计各个类别下各个特征属性的条件概率估计，即：
$P\left(a_{1} | y_{1}\right), P\left(a_{2} | y_{1}\right), \ldots, P\left(a_{m} | y_{1}\right) ; P\left(a_{1} | y_{2}\right), P\left(a_{2} | y_{2}\right), \ldots, P\left(a_{m} | y_{2}\right) ; \ldots, P\left(a_{1} | y_{n}\right), P\left(a_{2} | y_{n}\right), \ldots, P\left(a_{m} | y_{n}\right)$
如果各个特征属性是条件独立的，根据贝叶斯定理，可以进行以下推导：
$P\left(y_{i} | x\right)=\frac{P\left(x | y_{i}\right) P\left(y_{i}\right)}{P(x)}$
因为分母对于所有类别为常数，因为我们只要将分子最大化皆可。又因为各特征属性是条件独立的，所以有：
$P\left(x | y_{i}\right) P\left(y_{i}\right)=P\left(a_{1} | y_{i}\right) P\left(a_{2} | y_{i}\right) \ldots P\left(a_{m} | y_{i}\right) P\left(y_{i}\right)=P\left(y_{i}\right) \prod_{j=1}^{m} P\left(a_{j} | y_{i}\right)$

特征属性为离散值时可以直接统计计算，当属性特征为连续值时如何处理？
当特征属性为连续值时，通常假定其值服从高斯分布（也称正态分布）。即：
$\eta, \sigma)=\frac{1}{\sqrt{2 \pi} \sigma} e^{-} \frac{(x-\eta)^{2}}{2 \sigma^{2}}$
则条件概率为：
$P\left(a_{k} | y_{i}\right)=g\left(a_{k}, \eta_{y_{i}}, \sigma_{y_{i}}\right)$
当训练样本中某个类别没出现过某种特征， $P\left(a_i | y_k\right)=0$ ？
解决这个问题的办法是给每个特征和类别的组合加上给定个数的虚假样本（“hallucinated” examples）。
假设特征 $a_i$ 的取值有 $J$ 个，并假设为每个 $x_i$ 对应的概率增加 $s$ 个虚假样本，这样得到的估计称为平滑估计（smoothed estimate）:
$\hat{P}\left(X_{i}=x_{i} | C=c_{k}\right)=\frac{P\left\{X_{i}=x_{i} \wedge C=c_{k}\right\}+s}{P\left\{C=c_{k}\right\}+s J}$
特别的，当 $s = 1$ 时，上述平滑称为拉普拉斯平滑（Laplace smoothing）。
为何假设属性之间条件独立？
减少模型参数量，否则贝叶斯定理不成立。