朴素贝叶斯分类

最新推荐文章于 2022-10-16 20:08:03 发布

小本拉

最新推荐文章于 2022-10-16 20:08:03 发布

阅读量132

点赞数

本文链接：https://blog.csdn.net/weixin_43038150/article/details/98227375

版权

朴素贝叶斯分类器

朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法。
先验概率：当事情还未发生时，这件事情发生的概率。
后验概率：当事情发生后，这件事情由某个原因引起的概率。
先验概率难以获得，需要基于有限的训练样本尽可能的估计出后验概率。
基础知识：
全概率： $P(B)=\sum_{i=1}^{n}P(A_{i})P(B|A_{i})$
条件概率： $P(A|B)=\frac{P(A\bigcap B)}{P(B)}$
贝叶斯公式： $p(B|A_{i})=\frac{P(B)P(A_{i}|B)}{P(B)}$
极大似然估计：

分类器:
基于有限的训练样本集尽可能的估计出后验概率 $P(c_{i}|\mathbf{x})$ 。(后验概率就是求样本 $\mathbf{x}$ 的类别为 $c_{i}$ 的概率)
$P(c_{i}|\mathbf{x})=\frac{P(c_{i})P(\mathbf{x}|c_{i})}{P(\mathbf{x})}$
$P(c_{i})$ 是类“先验”概率表示训练集样本空间中各类别的概率分布， $P(\mathbf{x}|c_{i})$ 是样本 $\mathbf{x}$ 属于类别 $c_{i}$ 的条件概率， $P(\mathbf{x})$ 类似于一种用来归一化的“分母”。
朴素贝叶斯分类器的一个重要假设：对于样本中的所有属性相互独立，即每个属性对于结果都同样重要。这在一定情况下是错误的，比如在句子分类中，你、我、他这种词是不重要，而情感词讨厌、高兴、快乐这些词比较重要看，但朴素贝叶斯对这些词在计算中都看作同等重要。
基于属性独立的假设，得到朴素贝叶斯分类器的表达式： $P(c_{i}|\mathbf{x})=\frac{P(c_{i})P(\mathbf{x}|c_{i})}{P(\mathbf{x})}=\frac{P(c_{i})}{P(\mathbf{x})}\prod_{j=1}^{d}P(x_{j}|c_{i})$
$d$ 为属性数目， $\mathbf{x}$ 是输入样本， $x_{j}$ 表示输入样本在第 $j$ 个属性上的取值， $c_{i}$ 表示类别。
$P(c_{i})=\frac{|D_{c_{i}}|}{|D|}$
$∣ D ∣$ 表示训练集的大小， $D_{c_{i}}|$ 表示属于类别 $D_{i}$ 的样本集的大小。 $P(x_{j}|c_{i})=\frac{|D_{c_{i},x_{j}}|}{|D_{c_{i}}|}$
$D_{c_{i},x_{j}}|$ 表示样本集 $D_{c_{i}}$ 中第 $j$ 个属性上取值为 $x_{j}$ 的样本集大小。
上述公式是在属性为离散值时，当属性值为连续值时，呈高斯分布： $P(x_{j}|c_{i})=\frac{1}{\sqrt{2\pi}\sigma _{c_{i},j}}exp(-\frac{(x_{j}-\mu _{c_{i},j})^{2}}{2\sigma _{c_{i},j}^{2}})$
$\sigma _{c_{i},j}$ 表示第 $c_{i}$ 类样本在第 $j$ 个属性取值的标准差， $u _{c_{i},j}$ 表示在第 $c_{i}$ 类样本在第 $j$ 个属性取值的均值。
求出样本在每个类别 $c$ 下的概率，概率最大的类别就是所属类别。