【十九】机器学习之路——朴素贝叶斯分类

最新推荐文章于 2023-02-07 10:16:24 发布

Easy_ray

最新推荐文章于 2023-02-07 10:16:24 发布

阅读量883

点赞数 1

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/c369624808/article/details/78794741

版权

本文介绍了朴素贝叶斯分类的基础知识，包括贝叶斯定理的解释和应用，以及朴素贝叶斯分类器的主要原理、处理连续值特征和条件概率为0的情况。通过实例解析，帮助读者理解贝叶斯分类器的工作机制。

摘要由CSDN通过智能技术生成

最近在看周志华《机器学习》的贝叶斯分类器这一章时觉得书上讲的很难理解，很多专业术语和符号搞的我头大，大学时候概率论我还是学的还是不错的，无奈网上搜了搜前辈的博客，看到一篇把朴素贝叶斯讲的很简单的文章，顿时豁然开朗。关于贝叶斯分类且听我慢慢道来：

贝叶斯定理

上图可以很好的说明了贝叶斯的公式，P(A|B)就是在B事件已经发生的基础上，发生A的概率。同理，P(B|A)就是在A事件已经发生的基础上，发生B的概率。网上看到过一个很简单的贝叶斯概率的例子：

例如：一座别墅在过去的 20 年里一共发生过 2 次被盗，别墅的主人有一条狗，狗平均每周晚上叫 3 次，在盗贼入侵时狗叫的概率被估计为 0.9，问题是：在狗叫的时候发生入侵的概率是多少？

我们假设 A 事件为狗在晚上叫，B 为盗贼入侵，则以天为单位统计，P(A) = 3/7，P(B) = 2/(20*365) = 2/7300，P(A|B) = 0.9，按照公式很容易得出结果：P(B|A) = 0.9*(2/7300) / (3/7) = 0.00058

上述例子中：

P(A)是A的先验概率或边缘概率。之所以称为”先验”是因为它不考虑任何B方面的因素。
P(A|B)是已知B发生后A的条件概率，也由于得自B的取值而被称作A的后验概率。
P(B|A)是已知A发生后B的条件概率，也由于得自A的取值而被称作B的后验概率。
P(B)是B的先验概率或边缘概率，也作标准化常量（normalized constant）。

总结：

看完了以上的介绍，各位同学心里大概有点数了吧，其实贝叶斯分类器就是通过条件概率来进行分类的。举一个简单的例子，我们听到一段非常非常嗲的女生的声音，让你判断是A.志玲姐姐; B.门口吆喝卖大葱的大妈; C.女汉子同学；毫无疑问，我们都会选择A，因为我们知道志玲姐姐说话的声音很嗲，在这几个选项当中可能性最大。当然，有的同学就会说我那个女汉子同学平时私下说话超级超级嗲的，但是在没有这些可用信息的时候，我们选择志玲姐姐是概率最大的选项，这其实就是贝叶斯分类器的思想基础。

朴素贝叶斯分类器

关于朴素贝叶斯分类器的内容，推荐大家参考前辈阮一峰的博客——朴素贝叶斯分类器的应用，讲的浅显易懂，非常适合广大刚入门机器学习的小伙伴。
另外算法杂货铺——分类算法之朴素贝叶斯分类(Naive Bayesian classification)
这篇博客介绍贝叶斯分类器内容较丰富一点，而且不难懂。相信大家看完这两篇博客就能够完全搞懂贝叶斯分类。简单总结一下朴素贝叶斯里三个重要的点：

主要原理

朴素贝叶斯分类的基本原理就是贝叶斯定理，简单来说我们现在手头有个需要分类的数据。这个数据的特征属性值为 $x_{1}=({a_{1}},a_{2},...,a_{m})$ ，假设它有m个特征值，类别只有A类和B类两种类别。想要根据 $x_{1}$ 的特征值来判断它属于哪个类别的概率最高，从概率的角度来进行分类。