《机器学习实战》学习笔记：基于朴素贝叶斯的分类方法

最新推荐文章于 2024-08-18 11:53:15 发布

Herbert_Zero

最新推荐文章于 2024-08-18 11:53:15 发布

阅读量8.4k

点赞数 7

分类专栏：模式识别与机器学习《机器学习实战》笔记文章标签： python machine-learning bayes classify 机器学习

本文链接：https://blog.csdn.net/liyuefeilong/article/details/48383175

版权

本文介绍了基于贝叶斯理论的分类方法，讲解了朴素贝叶斯算法在文档分类中的应用场景，并通过Python实现了一个简单的文本分类器。文章详细阐述了如何准备数据、训练算法以及测试算法，展示了朴素贝叶斯分类器的工作原理和效果。

摘要由CSDN通过智能技术生成

概率是许多机器学习算法的基础，在前面生成决策树的过程中使用了一小部分关于概率的知识，即统计特征在数据集中取某个特定值的次数，然后除以数据集的实例总数，得到特征取该值的概率。

目录：

一.基于贝叶斯理论的分类方法
二.关于朴素贝叶斯的应用场景
三.基于Python和朴素贝叶斯的文本分类

1.准备数据

2.训练算法

3.测试算法
四.小结

以下进入正文：

一.基于贝叶斯理论的分类方法

假设有两类数据组成的数据集如下：

这里写图片描述

其中，假设两个概率分布的参数已知，并用p1(x,y)表示当前数据点(x,y)属于类别一的概率；用p2(x,y)表示当前数据点(x,y)属于类别二的概率。

贝叶斯决策理论的核心思想是：选择高概率所对应的类别，选择具有最高概率的决策。有时也被总结成“多数占优”的原则。

具体到实例，对于一个数据点(x,y)，可以用如下规则判定它的类别：

若p1(x,y)>p2(x,y)，那么点(x,y)被判定为类别一。
若p1(x,y)<p2(x,y)，那么点(x,y)被判定为类别二。

当然，在实际情况中，单单依靠以上的判定无法解决所有的问题，因为以上准则还不是贝叶斯决策理论的所有内容，使用p1(x,y)和p2(x,y) 只是为了简化描述。更多的，我们使用p(ci|x,y) 来确定给定坐标的点(x,y)，该数据点来自类别ci的概率是多少。具体地，应用贝叶斯准则可得到，该准则可以通过已知的三个概率值来计算未知的概率值：

这里写图片描述