朴素贝叶斯分类器

最新推荐文章于 2024-09-30 14:50:12 发布

CODE_WangZIli

最新推荐文章于 2024-09-30 14:50:12 发布

阅读量629

点赞数

分类专栏：统计学习方法文章标签：机器学习算法 python

本文链接：https://blog.csdn.net/code_wangzili/article/details/126711135

版权

统计学习方法专栏收录该内容

7 篇文章 0 订阅

订阅专栏

本文详细介绍了朴素贝叶斯分类器的工作原理，包括其在数据较少时的有效性，处理多类别问题的能力，以及对输入数据敏感的特点。通过平面直角坐标系上的数据分布示例，解释了如何利用条件概率进行类别决策。此外，还讨论了从词向量计算概率的方法，并给出了计算条件概率的伪代码。朴素贝叶斯分类器在信息技术领域，如文本分类和信息检索中有着广泛应用。

摘要由CSDN通过智能技术生成

贝叶斯分类器

优点：数据较少任然有效，可以处理多类别的问题
缺点：输入数据准备方式比价敏感
数据类型：标称型数据

朴素贝叶斯决策理论

$假设有两类数据： A 和 B$

平面直角坐标系上分布着A与B类型的数据

对于一个未知类型的数据点(x,y)

$P1(x,y)表示数据点(x,y)属于类别A的概率\\ P2(x,y)表示数据点(x,y)属于类别B的概率$

我们选取概率较大的作为该数据的类别，即最高概率的决策。

使用条件概率来决策

计算P1(x,y)和P2(x,y)，其实是计算P(A|x,y)和P(B|x,y)，即计算P(x,y)的条件概率。

贝叶斯条件概率公式有:
$p(A|x,y)=\frac{p(x,y|A)*p(A)}{p(x,y)}$

从词向量计算概率

将 $(x, y)$ 替换成 $\omega$ , $\omega$ 是一个向量。

$c_i,i=1,2,3…$ 表示类别，有：

$p(c_i|\omega)=\frac{p(\omega|c_i)*p(c_i)}{p(\omega)}$
利用贝叶斯条件独立性：
$p(\omega|c_i)=\prod_{j=1}^np(w_j|c_i)$

伪代码如下：

计算每个类别中的文档数目
对每篇训练文档：
    对每个类别：
        如果词条出现在文档中-->增加该词条的计数值
        增加所有词条的计数值
    对每个类别：
        对每个词条：
            将该词条的数目除以总词条数目得到条件概率
    返回每个类别的条件概率