朴素贝叶斯_朴素贝叶斯条件下求模型参数个数-CSDN博客

本文链接：https://blog.csdn.net/orion_t/article/details/83623107

概述

朴素贝叶斯法基于特征条件独立假设与贝叶斯定理。首先，基于特征条件独立假设，学习输入与输出的联合概率分布（生成模型）；然后，根据学习到的概率模型，对给定输入利用贝叶斯定理求出后验概率最大的输出，作为该输入的类别。

模型

有如下假设：

输入空间 $\mathcal{X}\subseteq\mathbf{R}^n$ 为 $n$ 维向量的集合，输出空间 $\mathcal{Y}=\{c_1,c_2,\cdots,c_K\}$ 为类标记的集合。
输入为特征向量 $\bm{x}\in\mathcal{X}$ ，输出为类标记 $y\in\mathcal{Y}$ 。
$\bm{X}$ 是定义在输入空间 $\mathcal{X}$ 上的随机向量， $Y$ 是定义在输出空间 $\mathcal{Y}$ 上的随机变量， $P(\bm{X},Y)$ 为 $\bm{X}$ 和 $Y$ 的联合概率分布。
训练数据集 $T=\{(\bm{x}_1,y_1),(\bm{x}_2,y_2),\cdots,(\bm{x}_N,y_N)\}$ 由 $P(\bm{X},Y)$ 独立同分布产生。

朴素贝叶斯法通过训练数据集 $T$ 学习以下两个分布

先验概率分布：
$P(Y=c_k)$
条件概率分布：
$P(\bm{X}=\bm{x} | Y=c_k) = P(X^{(1)}=x^{(1)},\cdots,X^{(n)}=x^{(n)}|Y=c_k)$

其中， $k=1,2,\cdots,K$ 。根据上述两个分布即可确定联合概率分布 $P(\bm{X},Y)$ ，故朴素贝叶斯法属于生成方法。

输出 $Y$ 的先验概率可由样本频率直接得到。条件概率常通过参数估计的方式获得，然而，上述条件概率分布包含指数级数量的参数，估计非常困难。朴素贝叶斯法对条件概率分布作了条件独立性假设，即在类确定的条件下，用于分类的特征是独立的：
$\begin{aligned} P(\bm{X}=\bm{x}|Y=c_k) &= P(X^{(1)}=x^{(1)},\cdots,X^{(n)}=x^{(n)}|Y=c_k) \\ &=\prod_{i=1}^{n} P(X^{(i)}=x^{(i)} | Y=c_k) \end{aligned}$

条件独立性假设可简化学习算法，但也造成了分类准确率的降低。

预测时采用后验概率最大化准则：对于任意输入 $\bm{x}$ ，通过学习到的先验概率和条件概率计算后延概率 $P(Y=c_k|\bm{X}=\bm{x})$ ，将后验概率最大的类作为输出。后验概率的计算采用贝叶斯定理：
$P(Y=c_k|\bm{X}=\bm{x}) = \frac{P(\bm{X}=\bm{x}|Y=c_k)P(Y=c_k)}{\sum_{i=1}^{K}P(\bm{X}=\bm{x}|Y=c_i)P(Y=c_i)}$
由条件独立性假设：
$P(Y=c_k|\bm{X}=\bm{x}) = \frac{P(Y=c_k)\prod_{j=1}^{n} P(X^{(j)}=x^{(j)} | Y=c_k)}{\sum_{i=1}^{K}P(Y=c_i)\prod_{j=1}^{n} P(X^{(j)}=x^{(j)} | Y=c_i)}$
其中， $k=1,2,\cdots,K$ 。朴素贝叶斯模型可表示为：
$y=f(\bm{x})=\arg \max_{c_k} \frac{P(Y=c_k)\prod_{j=1}^{n} P(X^{(j)}=x^{(j)} | Y=c_k)}{\sum_{i=1}^{K}P(Y=c_i)\prod_{j=1}^{n} P(X^{(j)}=x^{(j)} | Y=c_i)}$
上式的分母对所有 $c_k$ 是相同的，因此，模型亦可表示为：
$y=f(\bm{x})=\arg \max_{c_k} P(Y=c_k)\prod_{j=1}^{n} P(X^{(j)}=x^{(j)} | Y=c_k)$

后验概率最大化等价于期望风险最小化。

概率估计

极大似然估计

朴素贝叶斯法需要根据训练样本估计先验概率 $P(Y=c_k)$ 和条件概率 $P(X^{(j)}=x^{(j)}|Y=c_k)$ 。通常采用极大似然估计。

先验概率 $P(Y=c_k)$ 的极大似然估计为
$P(Y=c_k) = \frac{\sum_{i=1}^{N} I(y_i=c_k)}{N},\quad k=1,2,\cdots,K$
假设第 $j$ 个特征 $x^{(j)}$ 的可能取值有 $S_j$ 个，取值集合为 $\{a_{j1},a_{j2},\cdots,a_{jS_j}\}$ ，则条件概率 $P(X^{(j)}=a_{jl}|Y=c_k)$ 的极大似然估计为
$P(X^{(j)}=a_{jl}|Y=c_k) = \frac{\sum_{i=1}^{N} I(x_{i}^{(l)}=a_{jl},y_i=c_k)}{\sum_{i=1}^{N}I(y_i=c_k)}$
其中， $j\in\{1,2,\cdots,n\}$ ， $l\in\{1,2,\cdots,S_j\}$ ， $k\in\{1,2,\cdots,K\}$ 。 $x_i^{(j)}$ 为第 $i$ 个样本的第 $j$ 个特征， $a_{jl}$ 为第 $j$ 个特征可取的第 $l$ 个值。

贝叶斯估计

对于待测实例 $\bm{x}=(x^{(1)},x^{(2)},\cdots,x^{(n)})^{\rm T}$ ，若存在某个特征值 $x^{(j)}=a$ ，使得
$\sum_{i=1}^{N}I(x_i^{(j)}=a,y=c_k)=0$
即训练样本集中没有第 $j$ 个特征为 $a$ 且类别为 $c_k$ 的样本，则有
$P(X^{(j)}=a|Y=c_k) = 0$
于是，
$\prod_{j=1}^{n} P(X^{(j)}=a|Y=c_k) = 0$
假设对所有 $c_k\in\{c_1,c_2,\cdots,c_K\}$ ，上述概率均为0，则朴素贝叶斯模型失效，无法获得概率最大的类别；即使只有部分类别存在上述情况，也会使分类结果产生偏差。

要解决上述问题，条件概率的计算可采用贝叶斯估计：
$P_\lambda(X^{(j)}=a_{jl}|Y=c_k) = \frac{\sum_{i=1}^{N}I(x_i^{(j)}=a_{jl},y_i=c_k) + \lambda}{\sum_{i=1}^{N}I(y_i=c_k) + S_j\lambda}$
其中， $\lambda\geq 0$ 。当 $\lambda=0$ 时，即为极大似然估计；当 $\lambda=1$ 时，称为拉普拉斯平滑（Laplace Smoothing）。由于 $S_j$ 为第 $j$ 个特征可取值的数目，所以，
$\begin{aligned} \sum_{l=1}^{S_j}P_\lambda(X^{(j)}=a_{jl}|Y=c_k) &= \frac{\sum_{l=1}^{S_j} \left(\sum_{i=1}^{N}I(x_i^{(j)}=a_{jl},y_i=c_k) + \lambda\right)}{\sum_{i=1}^{N}I(y_i=c_k) + S_j\lambda} \\ &= \frac{\sum_{l=1}^{S_j} \sum_{i=1}^{N}I(x_i^{(j)}=a_{jl},y_i=c_k) + S_j\lambda}{\sum_{i=1}^{N}I(y_i=c_k) + S_j\lambda} \\ &= \frac{\sum_{i=1}^{N}\left(\sum_{l=1}^{S_j} I(x_i^{(j)}=a_{jl},y_i=c_k)\right) + S_j\lambda}{\sum_{i=1}^{N}I(y_i=c_k) + S_j\lambda} \\ &= \frac{\sum_{i=1}^{N}I(y_i=c_k) + S_j\lambda}{\sum_{i=1}^{N}I(y_i=c_k) + S_j\lambda} \\ &= 1 \end{aligned}$
即在类别 $c_k$ 下，第 $j$ 个特征取到所有值的概率为1。又因为
$P_\lambda(X^{(j)}=a_{jl}|Y=c_k) \geq 0$
所以 $P_\lambda(X^{(j)}=a_{jl}|Y=c_k)$ 是一种概率分布。

同理，先验概率的计算也可采用贝叶斯估计：
$P_\lambda(Y=c_k) = \frac{\sum_{i=1}^{N}I(y_i=c_k) + \lambda}{N+K\lambda}$
此时有
$P_\lambda(Y=c_k) \geq 0$
且
$\begin{aligned} \sum_{k=1}^{K}P_\lambda(Y=c_k) &= \frac{\sum_{k=1}^{K}\left(\sum_{i=1}^{N}I(y_i=c_k) + \lambda\right)}{N+K\lambda} \\ &= \frac{\sum_{k=1}^{K}\sum_{i=1}^{N}I(y_i=c_k) + K\lambda}{N+K\lambda} \\ &= \frac{N + K\lambda}{N+K\lambda} \\ &= 1 \end{aligned}$

总结：朴素贝叶斯算法

输入：

训练数据集
$T=\{(\bm{x}_1,y_1),(\bm{x}_2,y_2),\cdots,(\bm{x}_N,y_N)\}$
其中
$\bm{x}_i=\left(x_i^{(1)},x_i^{(2)},\cdots,x_i^{(n)}\right)^{\rm T}$
$x_i^{(j)}$ 是第 $i$ 个样本的第 $j$ 个特征，有
$x_i^{(j)}\in\{a_{j1},a_{j2},\cdots,a_{jS_j}\}$
$a_{jl}$ 是第 $j$ 个特征可取的第 $l$ 个值，有 $j\in\{1,2,\cdots,n\}$ ， $l\in\{1,2,\cdots,S_j\}$ 。
同时， $y_k\in\{c_1,c_2,\cdots,c_K\}$ 。
输入实例 $\bm{x}$ 。

输出：

实例 $\bm{x}$ 的分类。

算法：

对所有 $c_k\in\{c_1,c_2,\cdots,c_K\}$ ，计算先验概率 $P(Y=c_k)$ 与条件概率 $P(X^{j}=a_{jl}|Y=c_k)$ ：
$P(Y=c_k)=\frac{\sum_{i=1}^{N}I(y_i=c_k)}{N}$
$P(X^{(j)}=a_{jl}|Y=c_k) = \frac{\sum_{i=1}^{N}I(x_i^{(j)}=a_{jl},y_i=c_k)}{\sum_{i=1}^{N}I(y_i=c_k)}$
对所有 $c_k\in\{c_1,c_2,\cdots,c_K\}$ ，计算实例 $\bm{x}=\left(x^{(1)},x^{(2)},\cdots,x^{(n)}\right)^{\rm T}$ 在各类别条件下取相应特征值的条件概率，进而得到模型值：
$P(Y=c_k)\prod_{j=1}^{n}P(X_{(j)}=x^{(j)}|Y=c_k)$
确定实例 $\bm{x}$ 的类别：
$y=\arg\max_{c_k} P(Y=c_k)\prod_{j=1}^{n}P(X_{(j)}=x^{(j)}|Y=c_k)$