朴素贝叶斯法

mxYlulu

于 2020-05-26 10:28:00 发布

阅读量184

点赞数

分类专栏：机器学习文章标签：朴素贝叶斯算法

本文链接：https://blog.csdn.net/mxYlulu/article/details/106243649

版权

机器学习专栏收录该内容

2 篇文章 0 订阅

订阅专栏

$P S :$ 以下大部分基于西瓜书

贝叶斯决策论是概率框架下实施决策的基本方法。

贝叶斯决策论

假设有 $N$ 种可能的类别标记，即 ${c_1,c_2,...,c_N\}$ ， $\lambda_{ij}$ 是将一个真实标记为 $c_j$ 的样本误分类为 $c_i$ 所产生的损失，基于后验概率 $P(c_i|x)$ 可获得将样本 $x$ 分类为 $c_i$ 所产生的期望损失，即在样本 $x$ 上的"条件风险"：

$R(c_i|x)=\sum\limits_{j=1}^N{\lambda_{ij}P(c_j|x)}$
[注]:
这篇文章解释的不错。
先验概率是指根据以往经验和分析得到的概率。
后验概率是由果得到因的概率，根据结果我们求原因的概率。

比如这里的 $P$ ，即是对于真实标记为 $c_i$ 的 $x$ 样本这个结果，分类成 $c_j$ 的这个起因概率是 $P$ 。
有了这个 $P$ 才会造成这个损失，所以也可以看作是实际导火索的概率，这才是我们实际所需要的。

我们需要找到一个判定准则 $h$ ，以最小化总体风险。
显然我们只需要对于每个样本找使得每个 $R (c ∣ x)$ 最小的类别标记，这就是贝叶斯判定准则。

如果我们按照(最小化分类错误率) $\lambda_{ij}= \begin{cases} 0& \text{i=j}\\ 1& \text{else} \end{cases}$ ，显然有 $R(c_i|x)=1-P(c_i|x)$ 。
所以要使得 $R$ 最小，即找到最大的 $P$ ，但是我们是无法得到后验概率的，所以我们需要去找一个方法去估计后验概率。

基于贝叶斯定理，有：

$P(c|x)=\frac{P(c)P(x|c)}{P(x)}$
$P (c)$ 是先验概率,指的是标记 $c$ 存在的概率， $x$ 不考虑具体特征的情况下有多大可能是标记 $c$ ，如果保证训练集包含充足的独立同分布样本时，即指样本空间各类样本所占的比例。
$P (x ∣ c)$ 是样本 $x$ 相对于类标记 $c$ 的类条件概率，或者称为似然。其指的是对于类标记 $c$ ，样本 $x$ 有多大概率符合标记 $y$ (首先 $x$ 有自己的特征，所以我们求得是如果标记是 $c$ ，那么其特征是 $x = y$ 的概率是多少)。
显然似然不能靠比例估计，因为特征空间可以很大，这个无法通过样本模拟。

极大似然估计

也称为 $M L E$ 。

我们假设 $P (x ∣ c)$ 具有确定的形式并且被 $\theta_c$ 唯一确定，即 $P(x|\theta_c)$

令 $D_c$ 为训练集 $D$ 中第 $c$ 类样本组成的集合，假设这些样本是独立同分布的，则参数 $\theta_c$ 对于数据集 $D_c$ 的似然是：
$P(D_c|\theta_c)=\prod_{x\in D_c}P(x|\theta_c)$
$\hat{\theta_c}=\argmax P(D_c|\theta_c)$
连乘操作，容易溢出，改成 $LL(\theta_c)=\log P(D_c|\theta_c)$

以上是离散特征的情况，如果属性值是连续的，假设概率密度函数 $\sim N(u_c,\sigma_c ^2)$ ，其参数的最大似然估计。
$\hat{u_c}=\frac{\sum x}{|D_c|}$
$\hat{\sigma_c^2}=\frac{\sum (x-\hat{u_c})(x-\hat{u_c})^T}{|D_c|}$
即正态分布均值就是样本均值，正态分布方差就是样本方差

$P S :$ 不一定都是正态分布。

朴素贝叶斯分类器

上面讲了求解的时候，似然是 $P (x ∣ c)$ ，特征很难保证取到所有可能的特征，也就是很难保证有效的估计。
朴素贝叶斯分类器，采用了属性条件独立性假设：对于已知类别，所有属性相互独立，也就是独立地分类结果产生影响。
这样能保证样本的数据贡献更大，很少会出现不存在某个特征的情况。
$P(c|x)=\frac{P(c)P(x|c)}{P(x)}=\frac{P(c)}{P(x)}\prod P(x_i|c)$ ，因为对于所有类别证据因子 $P (x)$ 是相同的(相当于分子的全概率)，所以最后判定准则为：

$h_{nb}(x)=\mathop{\argmax}\limits_{c \in y} P(c)\prod P(x_i|c)$
$P(c)=\frac{D_c}{|D|}$
$P(x_i|c)=\frac{|D_{c,x_i}|}{|D_c|}$

连续属性的话， $P(x_i|c)=\frac{1}{\sqrt{2\pi}\sigma_{c,i}}\exp(-\frac{(x_i-u_{c,i})^2}{2\sigma^2_{c,i}})$
分别是第 $c$ 类样本，在第 $i$ 个属性上取值的均值和方差。

$P S :$ 为了避免其他属性携带的信息被训练集中未出现的属性值抹去(因为最终求解是连乘的，如果有一项是 $0$ ，总概率就是 $0$ 了)，在估计概率值时通常要进行平滑，常用“拉普拉斯平滑”：

令 $N$ 表示 $D$ 中可能的类别数， $N_i$ 表示第 $i$ 个属性可能的取值数。
$\hat{P(c)}=\frac{|D_c|+1}{|D|+N}$
$\hat{P(x_i|c)}=\frac{|D_{c,x_i}|+1}{|D_C|+N_i}$

未学习

半朴素贝叶斯分类器等

实例

朴素贝叶斯实现垃圾邮件

mxYlulu

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
朴素贝叶斯法

PS:PS:PS: 以下大部分基于西瓜书贝叶斯决策论是概率框架下实施决策的基本方法。贝叶斯决策论假设有NNN种可能的类别标记，即{c1,c2,...,cN}\{c_1,c_2,...,c_N\}{c1,c2,...,cN}，λij\lambda_{ij}λij是将一个真实标记为cjc_jcj的样本误分类为cic_ici所产生的损失，基于后验概率P(ci∣x)P(c_i|x)P(ci∣x)可获得将样本xxx分类为cic_ici所产生的期望损失，即在样本xxx上的"条件风险"：R(ci∣
复制链接

扫一扫