机器学习-07-概率分类-朴素贝叶斯

最新推荐文章于 2021-05-15 22:30:49 发布

pyorz

最新推荐文章于 2021-05-15 22:30:49 发布

阅读量111

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/pyorz/article/details/109128895

版权

机器学习专栏收录该内容

14 篇文章 0 订阅

订阅专栏

贝叶斯公式：

$p(c|x)=\frac{p(x|c)p(c)}{p(x)}$
样本空间 $S$ ，里面有子样本空间 $A$ 和 $B$ ，其中 $C$ 为 $A$ 和 $B$ 的交集

$P (C) = P (A B)$ 代表 $A$ 和 $B$ 同时发生的概率
$P (A ∣ B)$ 代表在 B 条件下 A 发生的概率：假设S=100,B=40,C=15,那么
- $P(B)=\frac{B}{S}=\frac{2}{5}$
- 记小 $P (c)$ 为C在B中发生的概率，那么 $P(c)=\frac{3}{8}$ ，那么
- $P(AB)=P(C)=P(c)*P(B)=P(A|B)*P(B)=\frac{3}{8}*\frac{2}{5}=\frac{3}{20}$

同理： $P (A B) = P (A ∣ B) * P (B) = P (B ∣ A) * P (A)$
得出贝叶斯公式：
$P(A|B)=\frac{P(B|A)P(A)}{P(B)}$
在这里插入图片描述

P(AB)为联合概率，AB同时发生的概率， $P (C)$ ）
P(A|B)为条件概率，确定B发生后，A发生的概率， $P (c)$

应用场景

机器学习的一个重要应用就是文档的自动分类。

在文档分类中，整个文档（如一封电子邮件）是实例，而电子邮件中的某些元素则构成特征。我们可以观察文档中出现的词，并把每个词作为一个特征，而每个词的出现或者不出现作为该特征的值，这样得到的特征数目就会跟词汇表中的词的数目一样多。

朴素贝叶斯是上面介绍的贝叶斯分类器的一个扩展，是用于文档分类的常用算法。

工作原理

提取所有文档中的词条并进行去重
获取文档的所有类别
计算每个类别中的文档数目
对每篇训练文档: 
    对每个类别: 
        如果词条出现在文档中-->增加该词条的计数值（for循环或者矩阵相加）
        增加所有词条的计数值（此类别下词条总数）
对每个类别: 
    对每个词条: 
        将该词条的数目除以总词条数目得到的条件概率（P(词条|类别)）
返回该文档属于每个类别的条件概率（P(类别|文档的所有词条)）