基于概率论的朴素贝叶斯法的分类方法及其应用（一）

最新推荐文章于 2021-11-28 18:37:38 发布

qingyangfeng

最新推荐文章于 2021-11-28 18:37:38 发布

阅读量1.2k

点赞数

分类专栏： Python 机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qingyangfeng/article/details/83787794

版权

本文介绍了基于贝叶斯的决策理论和条件概率进行分类的方法，特别是使用朴素贝叶斯进行文档归类。通过计算文档属于每个类别的概率来进行分类，适用于数据较少的情况。文章详细阐述了如何使用Python进行文本分类，包括构建词向量、训练算法和测试算法，并讨论了在实际应用中遇到的问题和解决方案，如特征独立假设、概率计算和下溢问题。

摘要由CSDN通过智能技术生成

1 基于贝叶斯的决策理论的分类方法

优点：在数据较少的情况下仍然有效，可以处理多类别问题。
缺点：对于输入数据的准备方式比较敏感。
使用数据类型：标称型数据。

贝叶斯决策理论

在这里插入图片描述
我们现在用p1(x,y)表示数据点(x,y)属于类别1（图中用圆点表示的类别）的概率，用p2(x,y)表示数据点(x,y)属于类别2（图中用三角形表示的类别）的概率。对于一个新数据点，可以用下面的规则判定它的类别：

如果p1(x,y)>p2(x,y)，那么为类别1；
如果p1(x,y)<p2(x,y)，那么为类别2；

也就是说，我们会选择高概率的类别。这就是贝叶斯决策的核心思想，即选择具有最高概率的决策。回到图4.1，如果图中的整个数据使用6个浮点数来表示，并且计算类别概率的Python代码只有两行，那么你会更倾向于使用哪种方法来对该数据点进行分类呢？

使用kNN法，进行1000次距离计算；
使用决策树，分别沿X轴、Y轴划分数据；
计算数据点属于每个类别的概率，并进行比较。

使用决策时不会非常成功；而和简单的概率计算相比，kNN计算量太大，因此，对于上述问题的最佳选择是使用概率比较的方法。

2 条件概率

假设x,a是两个事件，已知p(x|a)，要求p(a|x)，那么可以使用下面的计算方法：
$p(a|x)=\frac{p(x|a)p(a)}{p(x)}$

p(a|x)：x发生情况下，a发生的概率。
p(x|a)：a发生情况下，x发生的概率。
p(x)：x发生的概率。
p(a)：a发生的概率。

3 使用条件概率来分类

上面提到过按照贝叶斯决策理论计算要求计算两个概率p1(x,y)和p2(x,y)：

如果p1(x,y)>p2(x,y)，那么为类别1；
如果p1(x,y)<p2(x,y)，那么为类别2；

实际上，这两个准则并不是贝叶斯决策理论的全部内容，真正需要计算和比较的是 $p(c_1|x,y)$ 和 $p(c_2|x,y)$ ，这些符号所代表的意义是：给定某个x,y表示的数据点，那么该数据点来自类别 $c_1$ 和 $c_2$ 的概率是多少呢？ 具体的，可以应用贝叶斯准则得到：
$p(c_i|x,y)=\frac{p(x,y|c_i)p(c_i)}{p(x,y)}$

使用这些定义，可以定义贝叶斯分类准则为：

如果 $p(c_1|x,y)>p(c_2|x,y)$

最低0.47元/天解锁文章

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。