机器学习之朴素贝叶斯

最新推荐文章于 2024-05-19 21:26:37 发布

Annaaphq

最新推荐文章于 2024-05-19 21:26:37 发布

阅读量808

点赞数

文章标签：机器学习 python 人工智能

本文链接：https://blog.csdn.net/Annaaphq/article/details/126281416

版权

机器学习之朴素贝叶斯

一、朴素贝叶斯

朴素贝叶斯（Naive Bayes）是一种基于概率理论的分类算法，以贝叶斯理论为理论基础，通过计算样本归属于不同类别的概率来进行分类，是一种经典的分类算法。朴素贝叶斯是贝叶斯分类器里的一种方法，之所以称它朴素，原因在于它采用了特征条件全部独立的假设

二、贝叶斯决策理论

朴素贝叶斯
优点：在数据较少的情况下仍然有效，可以处理多类别问题。
缺点：对于输入数据的准备方式较为敏感。
适用数据类型：标称型数据。

朴素贝叶斯是贝叶斯决策理论的一部分，所以讲述朴素贝叶斯之前有必要快速了解一下贝叶斯决策理论。

假设现在有一个数据集，它由两类数据组成（红色和蓝色），数据分布如下图所示

现在用p 1 ( x , y ) p1(x,y)p1(x,y)表示数据点( x , y ) (x,y)(x,y)属于类别1（图中圆点表示的类别）的概率，用p 2 ( x , y ) p2(x,y)p2(x,y)表示数据点( x , y ) (x,y)(x,y)属于类别2（图中三角形表示的类别）的概率，那么对于一个新的数据的( x , y ) (x,y)(x,y)，可以用下面的规则来判断它的类别：

如果p 1 ( x , y ) > p 2 ( x , y ) p1(x,y) > p2(x,y)p1(x,y)>p2(x,y)，那么类别为1
如果p 1 ( x , y ) < p 2 ( x , y ) p1(x,y) < p2(x,y)p1(x,y)<p2(x,y)，那么类别为2
也就是说，会选择高概率所对应的类别。这就是贝叶斯决策理论的核心思想，即选择具有最高概率的决策

三、相应的数学知识

1、贝叶斯准则

贝叶斯准则告诉我们如何交换条件概率中的条件与结果，即如果已知P(x|c)，要求P(c|x)，那么可以使用下面的计算方法

2、全概率公式

除了条件概率以外，在计算p 1 p1p1和p 2 p2p2的时候，还要用到全概率公式

设事件A1,A2,A3…An两两互斥，又事件B满足

全概率公式可以写为

3、贝叶斯推断

对条件概率公式进行变形，可以得到如下形式:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-CGyupzH0-1660187309782)(C:\Users\HP\AppData\Roaming\Typora\typora-user-images\1660186658286.png)]

P(A)称为"先验概率"（Prior probability），即在B事件发生之前，对A事件概率的一个判断。

P(A|B)称为"后验概率"（Posterior probability），即在B事件发生之后，对A事件概率的重新评估

称为"可能性函数"（Likelyhood），这是一个调整因子，使得预估概率更接近真实概率

所以，条件概率可以理解成下面的式子：后验概率＝先验概率ｘ调整因子

四、使用条件概率来分类

贝叶斯决策理论要求计算两个概率 p1(x,y)和p2(x,y)
如果p1(x,y)>p2(x,y)，那么类别为1
如果p1(x,y)<p2(x,y)，那么类别为2

具体地，应用贝叶斯准则得到：

这些符号所代表的具体意义是：给定某个由x、y表示的数据点，那么该数据点来自类别c1和来自类别c2的概率是多少？
使用贝叶斯准则，可以通过已知的三个概率值来计算未知的概率值

五、文本分类举例

要从文本中获取特征，需要先拆分文本。这里的特征是来自文本的词条（token），一个词条是字符的任意组合。可以把词条想象为单词，也可以使用非单词词条，如URL、IP地址或者任意其他字符串。然后将每一个文本片段表示为一个词条向量，其中值为1表示词条出现在文档中，0表示词条未出现。

以在线社区的留言板为例。为了不影响社区的发展，我们要屏蔽侮辱性的言论，所以要构建一个快速过滤器，如果某条留言使用了负面或者侮辱性的语言，那么就将该留言标识为内容不当。过滤这类内容是一个很常见的需求。对此问题建立两个类别：侮辱类和非侮辱类，使用1和0分别表示

1、构建词向量

把文本看成单词向量或者词条向量，也就是说将句子转换为向量。考虑出现在所有文档中的所有单词，再决定将哪些词纳入词汇表或者说所要的词汇集合，然后必须要将每一篇文档转换为词汇表上的向量。简单起见，先假设已经将本文切分完毕，存放到列表中，并对词汇向量进行分类标注

def loadDataSet():
    postingList=[['my', 'do

最低0.47元/天解锁文章

Annaaphq

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
机器学习之朴素贝叶斯

朴素贝叶斯
复制链接

扫一扫

机器学习之朴素贝叶斯

机器学习之朴素贝叶斯

一、朴素贝叶斯

二、贝叶斯决策理论

三、相应的数学知识

1、贝叶斯准则

2、全概率公式

3、贝叶斯推断

四、使用条件概率来分类

五、文本分类举例

1、构建词向量

“相关推荐”对你有帮助么？