本文链接：https://blog.csdn.net/huanghui147258369/article/details/53689230

贝叶斯分类器

贝叶斯分类器
- 朴素贝叶斯
- 半朴素贝叶斯分类

1 朴素贝叶斯

1.1 摘要

分类问题应用得算法很多，线性回归、逻辑回归、SVM、决策树、贝叶斯算法。线性回归和逻辑回归是利用了边界判定方法。SVM利用的也是边界判定，只不过利用了支持向量。决策树算法利用的是分类信息的信息增益方法。贝叶斯算法则是利用了概率判定方法，哪个概率大选择哪个。

1.2 贝叶斯分类的基础——贝叶斯定理

P (B | A) = P ( A | B ) P ( A )

${\rm{P(B|A) = }}{{P(A|B)} \over {P(A)}}$

1.3 朴素贝叶斯原理

思想基础：选择条件概率最大的类别
前提：对已知类别，所有属性相互独立

朴素贝叶斯分类的正式定义如下：
- 1、设 $x = \{ {a_1},{a_2},...,{a_m}\}$ 为待分类项，a为x的特征属性
- 2、有类别集合 $C = \{ {y_1},{y_2},...{y_n}\}$ ，西瓜书上n=2，即判断只有好瓜坏瓜
- 3、在训练样本中统计在各类别下各个属性下的条件概率估计。即

P (a 1 | y 1), P (a 2 | y 1), . . . P (a m | y 1); P (a 1 | y 2), P (a 2 | y 2), . . . P (a m | y 2) . . . .; P (a 1 | y n), P (a 2 | y n), . . . P (a m | y n)

$\eqalign{ & P({a_1}|{y_1}),P({a_2}|{y_1}),...P({a_m}|{y_1});P({a_1}|{y_2}),P({a_2}|{y_2}),...P({a_m}|{y_2})....; \cr & P({a_1}|{y_n}),P({a_2}|{y_n}),...P({a_m}|{y_n}) \cr}$

4、根据贝叶斯公式可得
$P (y i | x) = P ( x | y i ) P ( y i ) P ( x )$ $P({y_i}|x) = {{P(x{\rm{|}}{{\rm{y}}_i})P({y_i})} \over {P(x)}}$
因为P（x）为常数，则
$P (x | y i) P (y i) = P (a 1 | y i) P (a 2 | y i) . . . P (a m | y i) = P (y i) \prod j = 1 m P (a j | y i)$ $P(x|{y_i})P({y_i}) = P({a_1}|{y_i})P({a_2}|{y_i})...P({a_m}|{y_i}) = P({y_i})\prod\limits_{j = 1}^m {P({a_j}|{y_i})}$
5、计算可得到 $P({y_1}|x)，P({y_2}|x)，...，P({y_m}|x)$

1.4 连续值特征属性划分的条件概率及Laplace校准

由以上分析可知，第三步计算训练样本中各类别各属性下的条件概率是最关键的。若特征属性为离散值，可以很方便的统计其出现的频率估计 $P({a_i}|y_j)$ ,若特征值为连续值则：
通常假定其服从高斯分布（正态分布）。即：

g (x, μ, σ) = 1 2 π - - \sqrt σ e - ( x - μ ) 2 2 σ 2

$g(x,\mu ,\sigma ) = {1 \over {\sqrt {2\pi } \sigma }}{e^{ - {{{{(x - \mu )}^2}} \over {2{\sigma ^2}}}}}$

另一个需要讨论的问题就是当P(a|y)=0怎么办，当某个类别下某个特征项划分没有出现时，就是产生这种现象，这会令分类器质量大大降低。为了解决这个问题，我们引入Laplace校准，它的思想非常简单，就是对没类别下所有划分的计数加1，这样如果训练样本集数量充分大时，并不会对结果产生影响，并且解决了上述频率为0的尴尬局面。
具体来说，另N表示训练集D中个可能的类别数（西瓜书上为2，好瓜坏瓜）， ${N_i}$ 表示第i个属性可能的取值数， ${D_y}$ 表示训练集D中第c类样本组成的集合，则