贝叶斯学习-CSDN博客

本文链接：https://blog.csdn.net/khk_abc/article/details/111033951

文章目录

机器学习||贝叶斯

机器学习||贝叶斯

1.贝叶斯方法

假设有C个类别，记为 ${w_1,w_2,...,w_j,...w_C\}$ ，有样本 $x$ 。分类器的分类错误概率是指 $x$ 被分类成错误类的概率，用公式表达如下：
$p(error|x)=\sum _jp(w_j|x), for\space x\in w_i,i\neq j$ 所以对于 $\forall i,x\in w_i$
$p(correct|x)=1-p(error|x)=1-\sum _{j,j\neq i}p(w_j|x)=p(w_i|x)$ 从分类错误概率应该尽可能小、分类正确概率尽可能大的原则出发，我们应该选择 $p(w_i|x)$ 最大的类别 $i$ 作为判断类别。即：
$class=\mathop {\argmax_{i}} p(w_i|x)$
进一步，根据贝叶斯公式，有
$class=\mathop {\argmax_{i}} p(w_i|x)=\mathop {\argmax_{i}} p(x|w_i)p(w_i)$

2.朴素贝叶斯方法

在贝叶斯方法中，需要计算 $p(x|w_i)=p(x_1,x_2,...,x_k,...,x_d|w_i)$ ，其中 $x_k$ 表示样本 $x$ 的第 $k$ 维特征，因此随着样本的 $x$ 的特征维度和每维特征的状态增加， $p(x|w_i)$ 的计算空间是呈指数增加的，计算量巨大，因此在朴素贝叶斯中，认为样本的每维特征是相互独立的，即
$p(x|w_i)=\prod_k^d p(x_k|w_i)$ 所以在朴素贝叶斯中，判别方式变为：
$class==\mathop {\argmax_{i}} p(x|w_i)p(w_i)=\mathop {\argmax_{i}} \prod_k^d p(x_k|w_i)p(w_i)$

3.拉普拉斯平滑

在前面的讨论中，需要用到各个状态组合的概率，然而训练集中有可能没有这些组合，导致统计出对应的概率为零，影响分类性能，因此，提出拉普拉斯平滑，缓减该因素带来的负面影响。

条件概率 $p(x_k|w_i)$
$p(x_k|w_i)=\frac{\sum_{i=1}^NI(x_k^i=a_{jl},y^i=w_i)+\gamma}{\sum_{i=1}^NI(y^i=w_i)+L_k*\gamma}$ 其中 $\gamma\geqslant 0$ ， $L_k$ 是指第 $k$ 维特征的状态数。
先验概率 $p(w_i)$
$p(w_i)=\frac{\sum_{i=1}^NI(y^i=w_i)+\gamma}{N+C*\gamma}$ $I$ 是示性函数，即
$I(x=y)=\left\{ \begin{matrix} 1 ,& x=y\\ 0,& x\neq y \end{matrix}\right.$