贝叶斯分类器_tan生成树-CSDN博客

本文链接：https://blog.csdn.net/jiang_jinyue/article/details/78980534

1.贝叶斯决策论

贝叶斯决策论是概率框架下实施决策的基本方法。设有N种可能的类别标记，即 $Y=c_1,c_2,...,c_N$ ， $λ_ij$ 是将一个真实标记为 $c_j$ 标记成为 $c_i$ 产生的损失.则基于后验概率 $P(c_i|x)$ 可获得将样本x分类为ci所产生的期望损失（也称条件风险）为：

R (c i | x) = \sum j = 1 N λ i j P (c j | x) (1.1)

$R(c_i|x)=\sum_{j=1}^{N}λ_{ij}P(c_j|x)(1.1)$ 我们的目的是寻找一个方法使得条件风险最小化。为最小化总体风险，只需在每个样本上选择哪个能是条件风险R(c|x)最小化的类别标记，即

h * (x) = a r g m i n c \in Y R (c | x) (1.2)

$h^*(x)=argmin_{c\in Y}R(c|x)(1.2)$
这就是贝叶斯判定准则（Bayes decision rule）。
若目标是最小化分类错误率，则条件风险为

R (c | x) = 1 - P (c | x) (1.3)

$R(c|x)=1−P(c|x)(1.3)$ 其中λij为0/1损失函数。所以，最小化分类错误率的贝叶斯最优分类器为

h * (x) = a r g m a x c \in Y P (c | x) (1.4)

$h^*(x)=argmax_{c\in Y}P(c|x)(1.4)$ 也就是对每个样本x，选择能使后验概率

P(c|x) $P(c|x)$ 最大的类别标记。
通常情况下

P(c|x) $P(c|x)$ 很难直接获得，根据我们已知的条件概率知识对公式1.4进行化简得

h * (x) = a r g m a x c \in Y P (c | x) = a r g m a x c \in Y P (x | c) P (c) P (x) = a r g m a x c \in Y P (x | c) P (c) (1.5)

$h^*(x)=argmax_{c\in Y}P(c|x)=argmax_{c∈Y}P(x|c)P(c)P(x)=argmax_{c∈Y}P(x|c)P(c)(1.5)$
其中P(c)为先验概率，P(x|c)为样本x关于类别c的条件概率。这就是后验概率最大化准则。这样一来，根据期望风险最小化原则就可以得到后验概率最大化准则。
在某些情况下，可假定Y中每个假设有相同的先验概率，这样式子1.5可以进一步简化为公式1.6，只需考虑P(x|c)来寻找极大可能假设。

h * (x) = a r g m a x c \in Y P (x | c) (1.6)

$h^*(x)=argmax_{c\in Y}P(x|c)(1.6)$

综合以上讨论，当前求最小化分类错误率的问题转化成了求解先验概率P(c)和条件概率（也称似然概率）P(x|c)的估计问题。对于先验概率P(c)表达了样本空间中各类样本所占的比例，根据大数定理，当训练集包含充足的独立同分布样本时，P(c)可以通过各类样本出现的频率进行估计。整个问题就变成了求解条件概率P(x|c)的问题。

2.朴素贝叶斯分类器

采用“属性条件独立性假设”：对已知类别，假设所有属性相互独立。

P (c | x) = P ( c ) P ( x | c ) P ( x ) = P ( c ) P ( x ) \prod i = 1 d P (x i | c) (2.1)

$P(c|x)=\frac{P(c)P(x|c)}{P(x)}=\frac{P(c)}{P(x)}\prod_{i=1}^dP(x_i|c)(2.1)$
其中d为属性数目，

xi $x_i$ 为x在第i个属性上的取值。
对于所有类别来说P(x),因此贝叶斯判定准则有

h n b (x) = a r g m a x c \in Y \prod i = 1 d P (x i | c) (2.2)

$h_{nb}(x)=argmax_{c\in Y}\prod_{i=1}^dP(x_i|c)(2.2)$ 这就是朴素贝叶斯分类器的表达式。
令

Dc $D_c$ 表示训练集D中第c类样本组成的集合，若有充足的独立分布的样本，则可以容易的估计出类先验概率

P (c) = | D c | | D | (2.3)

$P(c)=\frac{|D_c|}{|D|}(2.3)$
对于离散属性而言，令

Dc,xi $D_{c,x_i}$ 表示

Dc $D_c$ 在第i个属性上取值为

xi $x_i$ 的样本集合，则条件概率

P(xi|c) $P(x_i|c)$ 可估计为

P (x i | c) = | D c , x i | | D c | (2.4)

$P(x_i|c)=\frac{|D_{c,x_i}|}{|D_c|}(2.4)$
对联系属性而言，可考虑概率密度函数，假定

p(xi,c) N(uc,i,σ2c,i) $p(x_i,c)~N(u_{c,i},\sigma_{c,i}^2)$ ,其中

uc,i $u_{c,i}$ 和

σ2c,i $\sigma_{c,i}^2$ 分别是第c类样本在第i个属性上取值的均值和方差，则有

p (x | c) = 1 2 π - - \sqrt σ c , i e x p (- ( x i - u c , i ) 2 2 σ 2 c , i) (2.5)

$p(x|c)=\frac{1}{\sqrt{2\pi}\sigma_{c,i}}exp(-\frac{(x_i-u_{c,i})^2}{2\sigma_{c,i}^2})(2.5)$
增加“平滑”，常用“拉普拉斯修正”。

P ˆ (c) = | D c | + 1 | D | + N (2.6)

$\widehat{P}(c)=\frac{|D_c|+1}{|D|+N}(2.6)$

P ˆ (x i | c) = | D c , x i | + 1 | D | + N i (2.7)

$\widehat{P}(x_i|c)=\frac{|D_{c,x_i}|+1}{|D|+N_i}(2.7)$ 其中，N表示训练集D中可能的类别数，

Ni $N_i$ 表示第i个属性可能的取值数。
一般计算过程：
1.估计类先验概率P(c)
2.每个属性的条件概率

P(xi|c) $P(x_i|c)$
3.根据式2.1计算得到概率值，类之间比较

3.半朴素贝叶斯分类器

朴素贝叶斯分类器采样的是属性条件独立性假设，但现实任务往往难以实现。于是对属性条件独立性假设在一定程度上放松，由此产生了一类“半朴素贝叶斯分类器”的学习方法。半朴素贝叶斯分类器的基本思想是考虑一部分属性间的相互依赖信息，从而既不需要进行完全联合概率计算，又不至于忽略比较强的属性依赖关系。
“独依赖估计”(One-Denpendent Estimator,ODE):假设每个属性在类别之外最多仅依赖于一个其他属性。
1.SOPDE方法。这种方法是假定所有的属性都依赖于共同的一个父属性(超父)。
2.TAN方法(在最大生成树基础上通过下列步骤)。每个属性依赖的另外的属性由最大带权生成树来确定。
（1）先求每个属性之间的互信息来作为他们之间的权值。
（2）构件完全图。权重是刚才求得的互信息。然后用最大带权生成树算法求得此图的最大带权的生成树。
（3）找一个根变量，然后依次将图变为有向图。
（4）添加类别y到每个属性的的有向边。
这里写图片描述
AODE一种基于集成学习机制、更为强大的独依赖分类器。AODE尝试将每个属性作为超父来构建SPODE,然后将具有足够训练数据支撑的SPODE集成起来作为最终结果。