机器学习——概率分类(一)朴素贝叶斯模型

最新推荐文章于 2022-03-30 21:14:09 发布

隔壁的NLP小哥

最新推荐文章于 2022-03-30 21:14:09 发布

阅读量1.1k

点赞数 1

分类专栏：机器学习

本文链接：https://blog.csdn.net/hei653779919/article/details/104217577

版权

机器学习专栏收录该内容

29 篇文章 12 订阅

订阅专栏

机器学习——概率分类(一)朴素贝叶斯模型

1、概率分类问题概述

1.1 问题描述

概率分类问题是指假设存在一个类别的集合 $C=\{c_1,c_2,c_3...c_n\}$ ，其中一共包含n个分类，现在假设存在一个样本X，我们已经知道该样本X属于C中的某一个分类。以二分类问题为例，我们的目标是通过统计计算，判断X属于分类c1还是分类c2。

1.2 计算过程

我们对之前的问题描述进行形式化描述有：
$目标：判断P(c_1|X)与P(c_2|X)之间的大小$
$判断过程：P(c_1|X) > P(c_2|X)，则X∈c_1，否则属于c_2$

根据上面的形式化描述，我们可以知道，我们需要计算的就是 $P(c_1|X)，P(c_2|X)$ 。但是，我们很难直接通过样本来计算出其属于某个分类的条件概率。所以，我们引入贝叶斯公式，有：
$P(c_1|X)=\frac{P(c_1,X)}{P(X)}=\frac{P(X|c_1)P(c_1)}{P(X)}$
$P(c_2|X)=\frac{P(c_2,X)}{P(X)}=\frac{P(X|c_2)P(c_2)}{P(X)}$
则可以将比较过程转换为：
$判断：\frac{P(X|c_1)P(c_1)}{P(X)}与\frac{P(X|c_2)P(c_2)}{P(X)}之间的大小$
通过上式，可以发现分母是相同的，所以我们可以仅仅比较分子的大小，也就是：
$判断：P(X|c_1)P(c_1)与P(X|c_2)P(c_2)之间的大小$

1.3 相关概念

根据计算过程，我们确定了我们最终要计算的公式为：
$P(X|c_1)P(c_1)和P(X|c_2)P(c_2)$

先验概率：其中 $P(c_1)和P(c_2)$ 称为先验概率。所谓先验概率指的就是我们实现统计出来的概率，不需要在训练过程中进行再次计算的概率。在我们的例子中，就是我们可以在训练过程开始之前就得到在训练样本集合中属于分类 $c_i$ 的样本的个数与总样本的数量的比值。

先验概率的重要性：虽然先验概率是在训练之前就确定的，但是，其十分的重要，我们通过公式可以看出，如果在训练集合中的类别比例十分的不均匀的话。假设 $P(c_1)远远大于P(c_2)$ 的情况下。如果我们计算出来的 $P(X|c_2)>P(X|c_1)$ ，并且该X确实属于 $c_2$ 类。但是由于先验概率的存在，可能导致最终的计算结果 $P(X|c_1)P(c_1)>P(X|c_2)P(c_2)$ ，导致模型判断错误。

后验概率：所谓的后验概率，就是需要我们在训练的过程中进行统计的概率，在我们的例子中就是 $P(c_1)和P(c_2)$ 。也是说，我们在训练的过程中需要计算的就是X在 $c_1$ 和 $c_2$ 的后验概率。

1.4 计算目标

根据之前的描述，我们可以总结出，对于概率分类问题，我们最终的计算目标就是计算：
$P(X|C_i)$

我们将这种计算问题称之为概率密度估计问题。

2、朴素贝叶斯模型

2.1 模型概述

对于概率密度估计问题，朴素贝叶斯模型是一种简单有效的计算模型。该模型是从贝叶斯公式演化而来。我们先给出基本的贝叶斯公式：
$P(X|C)=\frac{P(X,C)}{P(C)}$
对于我们之前提出的来的计算 $P(c_1|X)与P(c_2|X)$ ，通过贝叶斯公式的转换之后变成计算：
$P(X|c_1)P(c_1)和P(X|c_2)P(c_2)$
假定，每一个训练样本的维度为K，也就是:
$\begin{matrix} X_1 \\ X_2 \\ X_3 \\ …\\ X_k \end{matrix}$
带入到公式之中，对于 $P(X|c_1)和P(X|c_2)$ 的计算就变成了:
$P(X|c_1)=P(X_1,X_2,...X_k|c_1)$
$P(X|c_2)=P(X_1,X_2,...X_k|c_2)$
简单的总结一下，对于朴素贝叶斯模型，其核心的计算公式就是：
$P(X|c_i)P(c_i)=P(X_1,X_2,...X_k|c_i)P(c_i)$

2.2 朴素贝叶斯规则

根据上面的计算公式，我们知道计算过程最终变成了X的各个属性值的集合 $X_i$ 在 $c_1和c_2$ 下的条件概率。跟进一步，我们只要假设任意的两个属性值 $X_i和X_j$ 之间是独立的。那么上述的计算公式可以进一步化简变成：
$P(X|c_1)=P(X_1,X_2,...X_k|c_1)=∏_{i=1}^kP(X_i|c_1)$
$P(X|c_2)=P(X_1,X_2,...X_k|c_1)=∏_{i=1}^kP(X_i|c_2)$
也就是说，我们从统计某一个属性值的集合的条件概率变成了分别统计各个属性值的条件概率。这种方式也就是朴素贝叶斯模型中的朴素。
第二点，在朴素贝爷模型中，要求的是各个属性的属性值是离散的。这一点的主要目的是为了便于统计。