贝叶斯分类器

extremebingo

于 2018-04-19 16:59:52 发布

阅读量273

点赞数

分类专栏： machine learning algorithm 文章标签：机器学习算法

本文链接：https://blog.csdn.net/extremebingo/article/details/79958365

版权

machine learning 同时被 2 个专栏收录

9 篇文章 6 订阅

订阅专栏

algorithm

3 篇文章 0 订阅

订阅专栏

几个重要公式

条件概率

P (A | B) = P ( A B ) P ( B )

$P(A | B) = \frac{P(AB)}{P(B)}$

乘法公式

P (A B) = P (A | B) P (B) = P (B | A) P (A)

$P(AB)=P(A|B)P(B)=P(B|A)P(A)$

全概率公式

如果事件组 $B_1, B_2, \cdots$ 满足

$B_1, B_2, \cdots$ 两两互斥，即 $B_i \cap B_j = \phi, i \neq j, i, j=1, 2, \cdots$ ，且 $P(B_i) > 0, I=1,2,\cdots$ ；
$B_1 \cup B_2 \cup \cdots = \Omega$ ，则称事件组 $B_1,B_2,\cdots$ 是样本空间 $\Omega$ 的一个划分。

设 $B_1,B_2,\cdots$ 是样本空间 $\Omega$ 的一个划分， $A$ 为任一事件，则全概率公式为

P (A) = \sum i = 1 \infty P (B i) P (A | B i)

$P(A) = \sum_{i=1}^{\infty}P(B_i)P(A|B_i)$

全概率公式的意义在于，当直接计算 $P(A)$ 较为困难，而 $P(B_i), P(A|B_i) (i=1,2,\cdots)$ 的计算较为简单时，可以利用全概率公式计算 $P(A)$ 。

贝叶斯公式

P (B i | A) = P ( B i A ) P ( A ) = P ( B i ) P ( A | B i ) \sum \infty j = 1 P ( B j ) P ( A | B j )

$P(B_i | A) = \frac{P(B_iA)}{P(A)} = \frac{P(B_i)P(A|B_i)}{\sum_{j=1}^{\infty}P(B_j)P(A | B_j)}$

$B_i$ 常被视为导致试验结果 $A$ 发生的“原因”， $P(B_i)(i=1,2,\cdots)$ 表示各种原因发生的可能性大小，故称先验概率； $P(B_i|A)(i=1,2,\cdots)$ 则反映当试验产生了结果 $A$ 之后，再对各种原因概率的新认识，故称后验概率。

朴素贝叶斯法

朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法。对于给定的训练数据集，首先基于特征条件独立假设学习输入/输出的联合概率分布；然后基于此模型，对给定的输入 $x$ ，利用贝叶斯定理求出后验概率最大的输出 $y$ 。

基本方法

训练数据集 $T = \{ (x_1, y_1), (x_2,y_2), \cdots, (x_N,y_N) \}$ 由 $P(X,Y)$ 独立同分布产生。朴素贝叶斯法通过训练数据集学习先验概率分布和条件概率分布来得到联合概率分布 $P(X,Y)$ 。

但是条件概率分布 $P(X=x|Y=c_k)$ 有指数级数量的参数，其估计实际是不可行的，因此需要条件独立性假设来减小计算量，即

P (X = x | Y = c k) = P (X (1) = x (1), \dots, X (n) = x (n) | Y = c k) = \prod j = 1 n P (X (j) = x (j) | Y = c k)

$\begin{align} P(X=x|Y=c_k) &= P(X^{(1)}=x^{(1)}, \cdots, X^{(n)}=x^{(n)} | Y = c_k) \\ & = \prod_{j=1}^{n}P(X^{(j)}=x^{(j)} | Y = c_k) \end{align}$

条件独立性假设等于是说用于分类的特征在类确定的条件下都是条件独立的。

朴素贝叶斯法分类时，对给定的输入 $x$ ，通过学习到的模型计算后验概率分布 $P(Y=c_k | X = x)$ ，将后验概率最大的类作为 $x$ 的类输出。

后验概率根据贝叶斯定理计算

P (Y = c k | X = x) = P ( X = x , Y = c k ) P ( X = x ) = P ( X = x | Y = c k ) P ( Y = c k ) \sum k P ( X = x | Y = c k ) P ( Y = c k ) = P ( Y = c k ) \prod j P ( X ( j ) = x ( j ) | Y = c k ) \sum k P ( Y = c k ) \prod j P ( X ( j ) = x ( j ) | Y = c k )

$\begin{align} P(Y=c_k | X = x) & = \frac{P(X=x, Y=c_k)}{P(X=x)} \\ & = \frac{P(X=x|Y=c_k)P(Y=c_k)}{\sum_k P(X=x|Y=c_k)P(Y=c_k)} \\ & = \frac{P(Y=c_k)\prod_j P(X^{(j)}=x^{(j)}|Y=c_k)}{\sum_k P(Y=c_k)\prod_jP(X^{(j)}=x^{(j)}|Y=c_k)} \end{align}$

朴素贝叶斯分类器可以表示为

y = f (x) = arg max c k P ( Y = c k ) \prod j P ( X ( j ) = x ( j ) | Y = c k ) \sum k P ( Y = c k ) \prod j P ( X ( j ) = x ( j ) | Y = c k )

$y=f(x)=\arg \max_{c_k} \frac{P(Y=c_k)\prod_j P(X^{(j)}=x^{(j)}|Y=c_k)}{\sum_k P(Y=c_k)\prod_jP(X^{(j)}=x^{(j)}|Y=c_k)}$

分母对任意的类别 $c_k$ 都是相同的，所以

y = f (x) = arg max c k P (Y = c k) \prod j P (X (j) = x (j) | Y = c k)

$y=f(x)=\arg \max_{c_k} P(Y=c_k)\prod_j P(X^{(j)}=x^{(j)}|Y=c_k)$

对于数值型的特征，需要先确定特征的分布(如高斯分布)；对于离散型的特征，可以选择多项分布，泊松分布等，然后估计分布的参数，从而求得 $P(X^{(j)}=x^{(j)}|Y=c_k)$ 。

参数估计

极大似然估计

在朴素贝叶斯法中，学习意味着估计 $P(Y=c_k)$ 和 $P(X^{(j)}=x^{(j)} | P(Y=c_k))$ 。先验概率 $P(Y=c_k)$ 的极大似然估计是

P (Y = c k) = \sum N i = 1 I ( y i = c k ) N

$P(Y=c_k) = \frac{\sum_{i=1}^N I(y_i=c_k)}{N}$

设第 $j$ 个特征 $x^{(j)}$ 可能取值的集合为 $\{ a_{j1}, a_{j2}, \cdots, a_{jS_j} \}$ ，条件概率 $P(X^{(j)}=a_{jl}|Y=c_k)$ 的极大似然估计为

P (X (j) = a j l | Y = c k) = \sum N i = 1 I ( x ( j ) i = a j l , y i = c k ) \sum N i = 1 I ( y i = c k )

$P(X^{(j)}=a_{jl}|Y=c_k) = \frac{\sum_{i=1}^{N}I(x_i^{(j)}=a_{jl},y_i=c_k)}{\sum_{i=1}^{N}I(y_i=c_k)}$

若为连续特征则可以考虑概率密度函数。

贝叶斯估计

上述极大似然估计中，估计条件概率时分子可能出现等于0的情况，这时会影响到后验概率的计算结果，使分类产生偏差。因此，引入了贝叶斯估计。

条件概率的贝叶斯估计

P λ (X (j) = a j l | Y = c k) = \sum N i = 1 I ( x ( j ) i = a j l , y i = c k ) + λ \sum N i = 1 I ( y i = c k ) + S j λ

$P_{\lambda}(X^{(j)}=a_{jl}|Y=c_k) = \frac{\sum_{i=1}^{N}I(x_i^{(j)}=a_{jl},y_i=c_k) + \lambda}{\sum_{i=1}^{N}I(y_i=c_k) + S_j\lambda}$

其中 $\lambda \geq 0$ 。当 $\lambda = 0$ 时，贝叶斯估计退化为极大似然估计。当 $\lambda = 1$ 时，这时称为拉普拉斯平滑(Laplace smoothing)。

先验概率的贝叶斯估计为

P λ (Y = c k) = \sum N i = 1 I ( y i = c k ) + λ N + K λ

$P_{\lambda}(Y=c_k) = \frac{\sum_{i=1}^N I(y_i=c_k) + \lambda}{N+K\lambda}$

$K$ 为类别的数量。

贝叶斯网络

把某个研究系统中涉及的随机变量，根据是否条件独立绘制在有向无环图(DAG)中，就形成了贝叶斯网络(Bayesian network)，亦称”信念网”(belief network)。

简单的贝叶斯网络

这里写图片描述

P (a, b, c) = P (a) P (b | a) P (c | a, b)

$P(a,b,c) = P(a)P(b|a)P(c|a,b)$

这里写图片描述

P (x 1, x 2, x 3, x 4, x 5, x 6, x 7) = P (x 1) P (x 2) P (x 3) P (x 4 | x 1, x 2, x 3) P (x 5 | x 1, x 3) P (x 6 | x 4) P (x 7 | x 4, x 5)

$P(x_1,x_2,x_3,x_4,x_5,x_6,x_7) = P(x_1)P(x_2)P(x_3)P(x_4 | x_1,x_2,x_3)P(x_5 | x_1,x_3)P(x_6|x_4)P(x_7 | x_4,x_5)$

贝叶斯网络的形式化定义

一个贝叶斯网 $B$ 由结构 $G$ 和参数 $\Theta$ 两部分构成，即 $B=<G,\Theta>$ 。网络结构 $G$ 是一个有向无环图，每个节点对应一个特征，如果两个特征之间有直接依赖关系，则它们之间有边连接，参数 $\Theta$ 就是用来定量描述这种依赖关系的。

一个特殊的贝叶斯网络

这里写图片描述

节点间形成一条链式网络，称为马尔科夫模型，其中 $A_{i+1}$ 只与 $A_i$ 有关，与 $A_1, \cdots, A_{i-1}$ 无关，即

P (X n + 1 | X 0, X 1, \dots, X n) = P (X n + 1 | X n)

$P(X_{n+1} | X_0,X_1, \cdots, X_n) = P(X_{n+1} | X_{n})$

三个变量之间的典型依赖关系

这里写图片描述

其联合概率密度为 $P(a,b,c) = P(c)P(a|c)P(b|c)$ ，从而 $\frac{P(a,b,c)}{P(c)} = P(a|c)P(b|c)$ ，因此 $P(a,b|c) = P(a|c)P(b|c)$ 。即，在 $c$ 给定的条件下， $a,b$ 是独立的。

这里写图片描述

其联合概率密度为 $P(a,b,c) = P(a)P(c|a)P(b|c)$

P (a, b | c) = P ( a , b , c ) P ( c ) = P ( a ) P ( c | a ) P ( b | c ) P ( c ) = P ( a , c ) P ( b | c ) P ( c ) = P (a | c) P (b | c)

$\begin{align} P(a,b|c) &= \frac{P(a,b,c)}{P(c)} \\ & = \frac{P(a)P(c|a)P(b|c)}{P(c)} \\ & = \frac{P(a,c)P(b|c)}{P(c)} \\ & = P(a|c)P(b|c) \end{align}$

即，在 $c$ 给定的条件下， $a,b$ 是独立的。