贝叶斯分类器Bayesian Classifier

最新推荐文章于 2024-08-26 20:36:16 发布

StepFoward

最新推荐文章于 2024-08-26 20:36:16 发布

阅读量868

点赞数

分类专栏： Machine Learning学习笔记文章标签：贝叶斯分类器朴素贝叶斯

本文链接：https://blog.csdn.net/u012654847/article/details/77872857

版权

Machine Learning学习笔记专栏收录该内容

3 篇文章 0 订阅

订阅专栏

# 贝叶斯分类器Bayesian Classifier

在一个分类的任务中，假设所有的相关概率已知，那么所谓的贝叶斯分类器就是利用这些已知的概率和分类误判误差来选择最优的类别。以多分类为例，来说明一下它的推导过程。

贝叶斯决策理论

假设有N个类别标签，这里定义几个标记：我们使用 $\lambda_{ij}$ 表示将j类样本误分为i类，使用 $P(c_j|\rm \mit x )$ 来表示将样本x分类为j类的概率，那么样本x被分类为 $\mit c_i$ 的误判损失，也就是风险概率即为：

R (c i | x) = \sum j = 1 N λ i j P (c j | x) . (1)

$R(c_i| \rm \mit x)=\sum_{j =1}^N \lambda_{ij}P(c_j|\rm {\mit x}).\quad \quad (1)$ 因此，我们的任务的总体误判损失即为：

R (h) = E x [R (h (x) | x)] . (2)

$R(h)=\mathbb E_x[R(h(x)| {\mit x}) ].\quad \quad (2)$ 我们需要的找的就是这样一个规则h，并且最小化这个总体条件风险，这就是贝叶斯判定准则。 贝叶斯判定准则就是指想要最小化总体的条件风险，那么对于每个样本，都选择可以使得该样本的条件风险最小的类别，表示如下：

h * (x) = a r g m i n R (h) = a r g m i n c \in y R (c | x) . (3)

$h^*({\mit x})=argminR(h) = argmin_{c\in {\cal y}}R(c| {\mit x}). \quad \quad (3)$
这里的

h∗(x) $h^*({\mit x})$ 就是最优贝叶斯分类器，对应的

R(h∗) $R(h^*)$ 就是贝叶斯风险,相反，

1−h∗(x) $1-h^*({\mit x})$ 就是最有贝叶斯对应的分类性能，也是机器学习所能达到的性能上限，这也是为什么最优贝叶斯分类器通常作为一种标准来衡量其他的学习器的效果。
我们可以继续简化上述的式子。可以想象，当分诶类确时，也就是

i=j $i=j$ 的时候，

λij=0 $\lambda_{ij}=0$ ；其他情况说明分类错误，那么条件风险可以改写为：

R (c | x) = 1 - P (c | x) . (4)

$R(c|{\mit x})=1-P(c|{\mit x} ).\quad \quad (4)$ 可以理解为，此时的条件风险就是所有分类错误的概率之和。因此，最小化上述条件风险，也就是相当于最大化

P(c|x) $P(c|\mit x)$ ,表示如下：

h * (x) = a r g m a x c \in y P (c | x) . (5)

$h^*({\mit x})=argmax_{c\in {\cal y}}P(c| {\mit x}).\quad \quad (5)$
此时我们的目标转向了

P(c|x) $P(c|{\mit x})$ ，通常这个不好直接得到，有两种策略，就是生成式模型和判别式模型。
判别式模型：就是直接建模

P(c|x) $P(c|{\mit x})$ 来预测

c。 $c。$ 生成式模型：使用联合概率

P(c,x) $P(c,x)$ 进一步得到

P(c|x)来预测c $P(c|{\mit x})来预测c$ 。
基于贝叶斯定理，有：

P (c) P (x | c) = P (x) P (c | x) . (6)

$P(c)P({\mit x}|c)=P(x)P(c|{\mit x}).\quad \quad (6)$
通过变形就可以得到

P (c | x) = P ( c ) P ( x | c ) P ( x ) . (7)

$P(c|{\mit x})=\frac{P(c)P({\mit x}|c)}{P(x)}.\quad \quad (7)$ 其中

P(x|c) $P({\mit x}|c)$ 是似然，那么我们的目标进一步转化成了先验概率

P(c) $P(c)$ 和似然

P(x|c) $P({\mit x}|c)$ 。之所以不考虑

P(x) $P(\mit x)$ 是因为对于所有的类别都相同，因此它不作为影响我们求解的关键。对于

P(c) $P(c)$ ， 在我们假设训练集中的样本的都是独立同分布的，也就是概率相同，相互独立。这也是贝叶斯分类器的一个最重要的假定条件

极大似然估计

接下来，继续上面的工作，处理似然 $P(x|c)$ 。我们将 $P(x|c)$ 记为 $P(x|\theta_c)$ , $\theta_c$ 是一个参数向量，唯一确定与似然。继续假设训练集中的所有样本都是独立同分布的，我们用 $D_c$ 表示是第 $c$ 类样本的集合，那么 $D_c$ 中的每个样本的先验概率 $P(c)=1$ ,这是 $D_c$ 的似然就是：

P (D c | θ c) = P ( D c , θ c ) P ( θ c ) = P (D c, θ c) = \prod x \in D c P (x | θ c) . (8)

$P(D_c|\theta_c)=\frac{P(D_c,\theta_c)}{P(\theta_c)}=P(D_c,\theta_c)=\prod_{x \in D_c}{P(x|\theta_c)}.\quad \quad (8)$ 即似然函数就是：

L (θ c) = \prod x \in D c P (x | θ c) . (9)

$L(\theta_c)=\prod_{x \in D_c}{P(x|\theta_c)}.\quad \quad (9)$
但是上面的概率连乘，在实际操作中可能会因为概率很小的从而使结果趋于0，也就是所谓的下溢（overflow）。因此，通常将其取对数，构成对数似然，如下

L L (θ c) = log P (D c | θ c = \sum x \in D c log P (x | θ c) . (10)

$LL(\theta_c )=\log P(D_c|\theta_c=\sum_{x \in D_c }{\log P(x|\theta_c)}.\quad \quad (10)$

朴素贝叶斯分类器

上面所说使用公式(7)得到 $P(c|x)$ 时候，是使用所有的属性的联合概率来表示类条件概率的，但是在有限的训练集中，这样作不太妥当，会遇到组合爆炸的问题。因此，基于这样的一个假设：假定每个已知的类别的所有属性都是相互独立的。这样

p (c | x) = P ( c ) P ( x | c ) P ( x ) = P ( c ) P ( x ) \prod i = 1 d P (x i | c) . (11)

$p(c|x)=\frac {P(c)P(x|c)}{P(x)}=\frac {P(c)}{P(x)} \prod_{i=1}^dP(x_i|c).\quad \quad (11)$
由于每个类别的

P(x) $P(x)$ 相同，所以我们可以得到一个新的分类器

h n b (x) = a r g m a x c \in y P (c) \prod i = 1 d P (x i | c) . (12)

$h_{nb}(x)=argmax_{c \in y}P(c) \prod_{i=1}^dP(x_i|c).\quad \quad (12)$ 这个新的分类器就叫 朴素贝叶斯分类器。所以朴素贝叶斯的“朴素”则体现在它基于属性独立假设，避开了在有限训练集的情况下所有属性的联合分布估计时带来的不便。这样计算的方便之处在于：

首先，在训练集中样本充足的情况下（独立同分布），每个类别的先验概率就是
$P (c) = | D c | | D | . (13)$ $P(c)=\frac{|D_c|}{|D|}.\quad \quad (13)$
其次，对于 $\prod_{i=1}^dP(x_i|c)$ 的计算，如果是离散的属性，假如 $D_c$ 中的第 $i$ 个属性取值为 $x_i$ 的样本组成的集合为 $D_{c,x_i}$ ,那么类条件概率为
$P (x i | c) = | D c , x i | | D C | . (14)$ $P(x_i|c)=\frac {|D_{c,x_i}|}{|D_C|}.\quad \quad (14)$
对于连续的属性样本，可以借助概率密度函数。如果 $P(x_i|c)$ 服从正态分布，则
$P (x i | c) = 1 2 π - - \sqrt σ c , i exp ⎛ ⎝ - ( x i - μ c , i ) 2 2 σ 2 ⎞ ⎠ . (15)$ $P(x_i|c)=\frac{1}{{\sqrt{2\pi} \sigma_{c,i}}}\exp \left( -\frac{(x_i-\mu_{c,i})^2}{2\sigma^2}\right).\quad \quad (15)$
需要注意的是，在使用朴素贝叶斯进行分类时，往往会出现某一个属性的条件概率为0，这会使得整个结果为0（因为概率连乘）。为了避免这种情况，通常使用拉普拉斯修正来进行优化。即
$P^(c) = | D c | + 1 | D | + N . P^(x i | c) = | D c , x i | + 1 | D C | + N i . (16)$ $\hat{P}(c)=\frac{|D_c|+1}{|D|+N}.\quad \quad \hat{P}(x_i|c)=\frac {|D_{c,x_i}|+1}{|D_C|+N_i}.\quad \quad (16)$
到这里，就可以只用公式(12)进行预测，计算的结果值大的作为该样本的最终分类结果。