朴素贝叶斯法_简述朴素贝叶斯的主要思想-CSDN博客

本文链接：https://blog.csdn.net/Horcham/article/details/78065665

朴素贝叶斯的基本思想是根据贝叶斯定理以及基于特征条件独立假设的分类方法。对于给定数据集，首先根据特征条件独立假设，学习输入 $X$ 和输出 $Y$ 的联合概率分布 $P(X,Y)$ ，然后基于此模型，对于输入 $x$ ，利用贝叶斯定理求出后验概率最大的输出 $y$ 。

设输入空间 $\chi \subseteq \mathbf{R}^n$ 为 $n$ 维向量的集合，输出空间为类标记集合 $\gamma=\{c_1,c_2,\cdots,c_K\}$ ，输入为特征向量 $x\in \chi$ ，输出为类标记 $y\in \gamma$ ， $X$ 定义为输入空间 $\gamma$ 上的随机变量， $Y$ 定义为在输出空间 $\gamma$ 上的随机变量。对于训练集

T = {(x 1, y 1), (x 2, y 2), \dots, (x N, y N)}

$T=\{(x_1,y_1),(x_2,y_2),\cdots,(x_N,y_N)\}$
由

P(X,Y) $P(X,Y)$ 独立同分布产生。

概率基础

先验概率

对于先验概率，可以理解为在事件发生前，根据以往经验总结的概率。则先验概率分布为：

P (Y = c k), k = 1, 2, \dots, K

$P(Y=c_k),k=1,2,\cdots,K$

后验概率

对于后验概率，可以理解为事件发生后，分局事件所发生的情况，对先验概率的一种修正。则可以理解为对于事件 $x$ 发生之后，对于事件 $Y$ 的发生概率的修正。后验概率分布为：

P (Y = c k | X = x), k = 1, 2, \dots, K

$P(Y=c_k|X=x),k=1,2,\cdots,K$

联合概率分布

对于每个事件 $X=x$ ， $Y=y$ 的概率，有

P (X = x | Y = c k) P (Y = c k) = P (X = x, Y = c k) P (X | Y) P (Y) = P (X, Y)

$P(X=x|Y=c_k)P(Y=c_k)=P(X=x,Y=c_k)\\ P(X|Y)P(Y)=P(X,Y)$
对于

P(X,Y) $P(X,Y)$ 的边际分布，有

P (X = x) = \sum k = 1 K P (X = x | Y = c k) P (Y = c k)

$P(X=x)=\sum_{k=1}^KP(X=x|Y=c_k)P(Y=c_k)$

引入条件独立性假设

为了求后验概率，可以应用贝叶斯定理，采取如下方法

P (Y = c k | X = x) = = P ( Y = c k , X = x ) P ( X = x ) P ( X = x | Y = c k ) P ( Y = c k ) \sum K k = 1 P ( X = x | Y = c k ) P ( Y = c k )

$\begin{eqnarray} P(Y=c_k|X=x)&=&\frac{P(Y=c_k,X=x)}{P(X=x)}\\ &=&\frac{P(X=x|Y=c_k)P(Y=c_k)}{\sum_{k=1}^KP(X=x|Y=c_k)P(Y=c_k)} \end{eqnarray}$
求解该模型，则转化为求

P(Y=ck) $P(Y=c_k)$ 和

P(X=x|Y=ck) $P(X=x|Y=c_k)$ 。如果能根据集

T $T$ 求出

P(Y=ck) $P(Y=c_k)$ 和

P(X=x|Y=ck) $P(X=x|Y=c_k)$ ，则对于新的所要预测的输入

x $x$ ，只需要求

max c k P (Y = c k | X = x)

$\max_{c_k}P(Y=c_k|X=x)$ 即可得到相应的输出

y $y$ 。

P(Y=ck) $P(Y=c_k)$ 的求解只需要对

T $T$ 进行筛选统计即可，然而

P(X=x|Y=ck) $P(X=x|Y=c_k)$ 的求解会比较困难。

P (X = x | Y = c k) = P (X (1) = x (1), X (2) = x (2), \dots, X (n) = x (n) | Y = c k)

$\begin{eqnarray} P(X=x|Y=c_k) &=& P(X^{(1)}=x^{(1)},X^{(2)}=x^{(2)},\cdots,X^{(n)}=x^{(n)}|Y=c_k) \end{eqnarray}$
设对于变量

Xi $X_i$ ，其有

|Xi|=Si $|X_i|=S_i$ 种取值，则条件概率分布的情况数有

K | X 1 | | X 2 | \dots | X n | = K \prod i = 1 n S i

$K|X_1||X_2|\cdots|X_n|=K\prod_{i=1}^nS_i$
这是一个指数级数量的参数。

为了减少条件概率分布的情况数，朴素贝叶斯法对条件概率分布引入条件独立性假设：

P (X = x | Y = c k) = = P (X (1) = x (1), X (2) = x (2), \dots, X (n) = x (n) | Y = c k) \prod i = 1 n P (X (i) = x (i) Y = c k)

$\begin{eqnarray} P(X=x|Y=c_k)&=&P(X^{(1)}=x^{(1)},X^{(2)}=x^{(2)},\cdots,X^{(n)}=x^{(n)}|Y=c_k)\\ &=& \prod_{i=1}^n P(X^{(i)}=x^{(i)}Y=c_k) \end{eqnarray}$

则有

P (Y = c k | X = x) = = P ( X = x | Y = c k ) P ( Y = c k ) \sum K k = 1 P ( X = x | Y = c k ) P ( Y = c k ) P ( Y = c k ) \prod n j = 1 P ( X ( j ) = x ( j ) | Y = c k ) \sum K k = 1 P ( Y = c k ) \prod n j = 1 P ( X ( j ) = x ( j ) | Y = c k )

$\begin{eqnarray} P(Y=c_k|X=x)&=&\frac{P(X=x|Y=c_k)P(Y=c_k)}{\sum_{k=1}^KP(X=x|Y=c_k)P(Y=c_k)}\\ &=&\frac{P(Y=c_k)\prod_{j=1}^{n}P(X^{(j)}=x^{(j)}|Y=c_k)}{\sum_{k=1}^KP(Y=c_k)\prod_{j=1}^{n}P(X^{(j)}=x^{(j)}|Y=c_k)} \end{eqnarray}$
由于是取

max{P(Y=ck|X=x)} $\max\{P(Y=c_k|X=x)\}$ 所对应的

ck $c_k$ 作为输出，因而有

y = f (x) = arg max c k P ( Y = c k ) \prod n j = 1 P ( X ( j ) = x ( j ) | Y = c k ) \sum K k = 1 P ( Y = c k ) \prod n j = 1 P ( X ( j ) = x ( j ) | Y = c k )

$y=f(x)=\arg\max_{c_k}\frac{P(Y=c_k)\prod_{j=1}^{n}P(X^{(j)}=x^{(j)}|Y=c_k)}{\sum_{k=1}^KP(Y=c_k)\prod_{j=1}^{n}P(X^{(j)}=x^{(j)}|Y=c_k)}$
由于上式的分母保持恒定，因而只有分子对结果有影响，因而转化为

y = arg max c k P (Y = c k) \prod j = 1 n P (X (j) = x (j) | Y = c k)

$y=\arg\max_{c_k}P(Y=c_k)\prod_{j=1}^nP(X^{(j)}=x^{(j)}|Y=c_k)$

一个小例子

对于MNIST，任取数据集中的一个输入 $x$ 像素为 $28\times28=784$ ，对于 $x_i\in[0,\cdots,255],x_i\in\mathbf{R}$ ，输出 $y$ 的可能取值为 $y\in[0,\cdots,9],y\in \mathbf{R}$ 。在引入条件独立性假设之前，P(X=x|Y=c_k)的情况数有 $255^{784}\times 10$ ，而当引入了条件独立性假设之后，P(X=x|Y=c_k)的情况数有 $255\times784\times10$ ，大大降低了参数个数。

朴素贝叶斯算法

输入：训练数据 $T=\{(x_1,y_1),(x_2,y_2),\cdots,(x_N,y_N)\}$ ，其中 $x_i=(x_i^{(1)},x_i^{(2)},\cdots,x_i^{(n)})^T$ ， $x_i^{(j)}$ 为第 $i$ 个样本的第 $j$ 个特征， $x_i^{(j)}\in\{a_{j1},a_{j2},\cdots,a_{jS_{j}}\}$ ， $a_{jl}$ 是第 $j$ 个特征可能取的第 $l$ 个值， $j=1,2,\cdots,n$ ， $l=1,2,3\cdots,S_j$ ， $y_i\in\{c_1,c_2,\cdots,c_K\}$ ；实例 $x$ ；

输出：实例 $x$ 的分类.

(1) 计算先验概率及条件概率

P (Y = c k) = \sum N i = 1 I ( y i = c k ) N, k = 1, 2, \dots, K P (X (j) = a j l | Y = c k) = \sum N i = 1 I ( x ( j ) i = a j l , y i = c k ) \sum N i = 1 I ( y i = c k ) j = 1, 2, \dots, n; l = 1, 2, \dots, S j; k = 1, 2, \dots, K

$\begin{eqnarray} P(Y=c_k)=\frac{\sum_{i=1}^NI(y_i=c_k)}{N}, k=1,2,\cdots,K\\ P(X^{(j)}=a_{jl}|Y=c_k)=\frac{\sum_{i=1}^NI(x_i^{(j)}=a_{jl},y_i=c_k)}{\sum_{i=1}^NI(y_i=c_k)}\\ j=1,2,\cdots,n;l=1,2,\cdots,S_j;k=1,2,\cdots,K \end{eqnarray}$
(2) 对于给定的实例