朴素贝叶斯学习算法原理

最新推荐文章于 2022-11-28 01:58:06 发布

Hey___Man

最新推荐文章于 2022-11-28 01:58:06 发布

阅读量493

点赞数

分类专栏：机器学习文章标签：朴素贝叶斯分类原理机器学习

本文链接：https://blog.csdn.net/Hey___Man/article/details/79407850

版权

机器学习专栏收录该内容

3 篇文章 0 订阅

订阅专栏

要了解朴素贝叶斯学习算法，我们先从贝叶斯决策论说起。

贝叶斯决策论

贝叶斯决策论是一种在概率框架下实施决策的基本方法，通过概率计算来训练学习模型，其基本思想非常简单。
具体来说，假设有N种可能的类别标记，即 $Y=\{c_1,c_2,c_3,\dots,c_N\}$ ， $\lambda_{ij}$ 是一个将真实标记为 $c_j$ 的样本误标记为 $c_i$ 所产生的损失，基于后验概率 $P(c_i|\vec{x})$ 可获得将样本 $\vec{x}$ 分类为 $c_i$ 所产生的期望损失，即在样本 $\vec{x}$ 上产生的“风险条件”：

R (c i | x ⃗) = \sum j = 1 N λ i j P (c j | x ⃗)

$R(c_i|\vec{x})=\sum_{j=1}^{N}{\lambda_{ij}P(c_j|\vec{x})}$
我们的任务是，找到一个判断准则

h:X→Y h : X → Y $h:X\rightarrow Y$ 以最小化总体风险。

贝叶斯判断准则:为最小化总体风险，只需要在每个样本上选择那个能使条件风险 $R(c|\vec{x})$ 最小的标记类别，即

h * (x ⃗) = a r g m i n c \in Y R (c | x ⃗)

$h^\ast(\vec{x})=argmin_{c\in Y}R(c|\vec{x})$ 此时，称

h∗ h ∗ $h^\ast$ 为贝叶斯最优分类器。

若目标是最小化分类错误率，则误判损失 $\lambda{ij}$ 可写为:

λ i j = {01 i = j i \neq j

$\lambda_{ij}=\begin{cases} 0 & i=j \\ 1 & i\neq j \\ \end{cases}$
此时，条件风险为

R(c|x⃗ )=1−P(c|x⃗ ) R ( c | x → ) = 1 − P ( c | x → ) $R(c|\vec{x})=1-P(c|\vec{x})$ ，于是，最小化分类错误率的贝叶斯最优分类器为

h * (x ⃗) = a r g m a x c \in Y P (c | x ⃗)

$h^\ast(\vec{x})=argmax_{c\in Y}P(c|\vec{x})$
即对每个样本

x⃗ x → $\vec{x}$ ，选择能使后验概率

P(c|x⃗ ) P ( c | x → ) $P(c|\vec{x})$ 最大的标记类别。
基于贝叶斯定理，

P(c|x⃗ ) P ( c | x → ) $P(c|\vec{x})$ 可写为

P (c | x ⃗) = P ( x ⃗ , c ) P ( x ⃗ ) = P ( c ) P ( x ⃗ | c ) P ( x ⃗ )

$P(c|\vec{x})=\frac{P(\vec{x},c)}{P(\vec{x})}=\frac{P(c)P(\vec{x}|c)}{P(\vec{x})}$ 其中，

P(c) P ( c ) $P(c)$ 是类先验概率，

P(x⃗ |c) P ( x → | c ) $P(\vec{x}|c)$ 是样本

x⃗ x → $\vec{x}$ 相对于类标记c的类条件概率，或称为“似然”，

P(x⃗ ) P ( x → ) $P(\vec{x})$ 是用于归一化的“证据”因子。此时，则有

h * (x ⃗) = a r g m a x c \in Y P (c | x ⃗) = a r g m a x c \in Y P ( c ) P ( x ⃗ | c ) P ( x ⃗ )

$h^\ast(\vec{x})=argmax_{c\in Y}P(c|\vec{x})=argmax_{c\in Y}{\frac{P(c)P(\vec{x}|c)}{P(\vec{x})}}$
可以看出，对于一个特定的样本

x⃗ x → $\vec{x}$ ，其分类结果只与

P(c) P ( c ) $P(c)$ 和

P(x⃗ |c) P ( x → | c ) $P(\vec{x}|c)$ 有关，此时问题便转化为通过训练集求出

P(c) P ( c ) $P(c)$ 和

P(x⃗ |c) P ( x → | c ) $P(\vec{x}|c)$ ，不同的求法便产生了不同的学习算法。

朴素贝叶斯

对于类先验概率 $P(c)$ ,直观上可以通过 $P (c) = | D c | | D |$ $P(c)=\frac{|D_c|}{|D|}$ 来求。
对于样本 $\vec{x}$ 的类条件概率 $P(\vec{x}|c)$ ，由于类条件概率 $P(\vec{x}|c)$ 是所有属性上的联合概率，当样本维度增加时，计算复杂度呈指数级增长，同时也难以从有限的训练样本直接估计得出。

因此，朴素贝叶斯分类器采用属性条件独立性假设：对已知类别，假设所有属性相互独立。在此假设下，

P (c | x ⃗ ） = P ( c ) P ( x ⃗ | c ) P x ⃗ = P ( c ) P ( x ⃗ ) \prod i = 1 d P (x i | c)

$P(c|\vec{x}）=\frac{P(c)P(\vec{x}|c)}{P\vec{x}}=\frac{P(c)}{P(\vec{x})}\prod_{i=1}^d{P(x_i|c)}$ 其中，d为属性数目，

xi x i $x_i$ 为

x⃗ x → $\vec{x}$ 在第i个属性上的取值。
此时，朴素贝叶斯分类器的表达式为

h n b (x ⃗) = a r g m a x c \in Y P (c) \prod i = 1 d P (x i | c)

$h_{nb}(\vec{x})=argmax_{c\in Y}P(c)\prod_{i=1}^d{P(x_i|c)}$ 显然，朴素贝叶斯分类器的训练过程就是基于训练集D来估计先验概率P(c）,并为每个属性估计条件概率

P(xi|c) P ( x i | c ) $P(x_i|c)$ 。

注意事项

在具体问题中，很有可能出现 $P(x_i|c)=0$ 的情形，此时，便得到 $P(c)\prod_{i=1}^d{P(x_i|c)=0}$ ，显然，属性 $x_i$ 中未出现的属性值抹去了其他属性携带的信息，这是不合理的，因此常用“拉普拉斯修正”进行改进。令N表示训练集D中可能的类别数， $N_i$ 表示第i个属性可能的取值数，则有 $P^(c) = | D c | + 1 | D | + N$ $\hat{P}(c)=\frac{|D_c|+1}{|D|+N}$ $P^(x i | c) = | D c , x i | + 1 | D c | + N i$ $\hat{P}(x_i|c)=\frac{|D_{c,x_i}|+1}{|D_c|+N_i}$ “拉普拉斯修正”实质上假设了属性值与类别均匀分布。
可以看到，结果是一个连乘公式，且对于任意 $1 \leq i \leq d$ ，均有 $P(x_i|c)\in (0,1]$ ，当 $d$ 较大时，结果可能出现溢出。因此，常对其取log进行运算，公式变为 $\log P (c | \vec{x}) = \log P (c) - l o g P (\vec{x}) + \sum_{i = 1}^{d} \log P (x_{i} | c)$ $\log{P(c|\vec{x})}=\log{P(c)}-log{P(\vec{x})+\sum_{i=1}^{d}\log{P(x_i|c)}}$
$h n b (x ⃗) = a r g m a x c \in Y （ log P (c) + \sum i = 1 d log P (x i | c) ）$ $h_{nb}(\vec{x})=argmax_{c\in Y} （\log{P(c)}+\sum_{i=1}^{d}\log{P(x_i|c)}）$

理论结合实践。为此，我编写了朴素贝叶斯方法的垃圾邮件分类器，适合初学者使用。

Hey___Man

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
朴素贝叶斯学习算法原理

要了解朴素贝叶斯学习算法，我们先从贝叶斯决策论说起。贝叶斯决策论贝叶斯决策论是一种在概率框架下实施决策的基本方法，通过概率计算来训练学习模型，其基本思想非常简单。具体来说，假设有N种可能的类别标记，即Y={c1,c2,c3,…,cN}Y={c1,c2,c3,…,cN}Y=\{c_1,c_2,c_3,\dots,c_N\}，λijλij\lambda_{ij}是一个将真实标记为cjc...
复制链接

扫一扫

专栏目录