机器学习之朴素贝叶斯模型及代码示例

最新推荐文章于 2024-08-14 22:32:50 发布

cxmscb

最新推荐文章于 2024-08-14 22:32:50 发布

阅读量1.3w

点赞数 5

分类专栏：机器学习机器学习文章标签：机器学习朴素贝叶斯模型

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/cxmscb/article/details/69267326

版权

本文深入介绍了朴素贝叶斯模型的理论基础，包括贝叶斯定理和特征条件独立假设，并详细阐述了高斯、多项式和伯努利三种常见模型。同时，探讨了词袋法的特征值计算方法如TF、TF-IDF和二值计算。文章通过代码示例展示了如何在实际文本分类任务中应用朴素贝叶斯模型。

摘要由CSDN通过智能技术生成

一、朴素贝叶斯的推导

朴素贝叶斯学习（naive Bayes）是一种有监督的学习，训练时不仅要提供训练样本的特征向量X，而且还需提供训练样本的实际标记Y，是一种基于贝叶斯定理和特征条件独立假设的分类方法。

1. 贝叶斯定理：

贝叶斯定理：这里写图片描述。

对于分类问题，其中这里写图片描述可看作在样本的特征为X的条件下，样本的类别为Y的条件概率，这正是分类问题中我们想求的；

而右边中的这里写图片描述可看作训练集中样本类别为Y的概率，可看作在训练集中特征为X时，样本类别为Y的条件概率，可看作训练集中特征为X的样本概率。可看出，右边的值我们是可以通过计算得到的。其中、分别为 X和Y的先验概率，其值与训练集的选择有一定的关系。

2. 特征条件独立假设

由 1 可知，特征向量 X 的维度不一定是一维的，可能是多维的：这里写图片描述。

因此样本类别Y 的取值这里写图片描述是跟样本的每一个维度取值有关的。因此可由贝叶斯定理得出下式：

这里写图片描述

又因为朴素贝叶斯对条件概率分布进行了条件独立性的假设，即同一类别中，样本的每一维度的特征都是 独立的 。朴素贝叶斯之所以“朴素”正因为这一假设。因此可有：

这里写图片描述

于是可得：

这里写图片描述

又由全概率分布公式可得：

这里写图片描述

因此我们想要得到的样本类别y 为：

这里写图片描述

即将概率最高的那个标记这里写图片描述作为预测样本的标签。

又因对于每一个类别标记来说：

这里写图片描述为一常数。

因此概率最高的样本类别y 可简化表示为：

这里写图片描述

因此这里写图片描述、的求值是关键。

二、朴素贝叶斯常用模型

在不同的朴素贝叶斯模型中，这里写图片描述的求值也不同。下列为朴素贝叶斯常见的三种模型。

1. 高斯朴素贝叶斯模型

在高斯朴素贝叶斯模型中，特征向量 X 的特征通常为连续型变量，并且假定所有特征的取值是符合高斯分布的，即：

这里写图片描述。

其中参数这里写图片描述、

最低0.47元/天解锁文章

关注

5
点赞
踩
28

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。