基于机器学习朴素贝叶斯算法完成经典的垃圾邮件分类任务

最新推荐文章于 2022-11-29 12:59:57 发布

幻风_huanfeng

最新推荐文章于 2022-11-29 12:59:57 发布

阅读量1.3k

点赞数

本文链接：https://blog.csdn.net/huanfeng_AI/article/details/115337210

版权

朴素贝叶斯概率垃圾邮件分类特征独立贝叶斯公式

关键词由CSDN通过智能技术生成

正向概率和逆向概率

正向概率：假设袋子里面有N个红色球，有M个黑色球，现在我们伸手一摸，此时你摸出黑色球的概率是多少？
逆向概率：事先我们并不知道袋子里面黑色球和红色球的比例，而是闭着眼睛摸出一个球（或者好几个球），观察这些取出来球的颜色之后，那么我们可以就对袋子里面的是黑红球的比例做出推测。
在这里插入图片描述

这就是正向概率和逆向概率的不同，那么为什么要使用朴素贝叶斯呢？因为我们现实的世界本身就是不确定的，我们往往看到的是一个问题的结果，就像逆向的概率一样，所以我们可以通过结果对原因进行猜测，这就是逆向概率的问题，而朴素贝叶斯就是为了解决逆向概率的问题。

朴素贝叶斯

朴素贝叶斯是贝叶斯算法的一种特例，朴素贝叶斯之所以朴素是因为引入了假设，比如：如果认为每个样本都是独立的，而正因为假设的引入，使得模型简单易理解，同时如果算法训练得当，往往能收获不错的分类效果。
在这里插入图片描述

这个公式就是贝叶斯公式，当我们想要求在特征x条件下样本C=1的概率，我们可以将问题转化为，所有C=1样本中x特征的比例，以及所有样本中类别C=1的比例，因为这两个比例都是先验经验，我们可以根据历史样本数据轻松获取，从而将一个复杂问题变成了一个简单的统计问题，这就是朴素贝叶斯的应用了。

垃圾邮件分类问题

我们先来看一下垃圾邮件的问题，给定一封邮件D判定它是否是垃圾邮件，其实D是由这封邮件的所有单词组成的。我们用h+表示垃圾邮件，使用h-来表示正常邮件。那么当算法获取到这封邮件的时候，如何能够确定这封邮件是正常邮件还是垃圾邮件，这里我们使用朴素贝叶斯算法完成这个任务。其实问题就是求P(h+|D）以及P(h-|D)问题，哪个概率大我们就可以认为邮件是垃圾邮件还是非垃圾邮件。在这里插入图片描述

朴素贝叶斯解决垃圾邮件分类问题

我们很难判断P(h+|D）以及P(h-|D)，但此时我们可以使用朴素贝叶斯算法来对问题进行转换，具体来说我们可以将问题转换成下面这样：

在这里插入图片描述

幻风_huanfeng

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
打赏
0
评论
基于机器学习朴素贝叶斯算法完成经典的垃圾邮件分类任务

正向概率和逆向概率正向概率：假设袋子里面有N个红色球，有M个黑色球，现在我们伸手一摸，此时你摸出黑色球的概率是多少？逆向概率：事先我们并不知道袋子里面黑色球和红色球的比例，而是闭着眼睛摸出一个球（或者好几个球），观察这些取出来球的颜色之后，那么我们可以就对袋子里面的是黑红球的比例做出推测。这就是正向概率和逆向概率的不同，那么为什么要使用朴素贝叶斯呢？因为我们现实的世界本身就是不确定的，我们往往看到的是一个问题的结果，就像逆向的概率一样，所以我们可以通过结果对原因进行猜测，这就是逆向概率的问题，而朴素
复制链接

扫一扫