数据挖掘算法之 Naive Bayes

最新推荐文章于 2022-11-24 21:17:03 发布

Whu_Xcy

最新推荐文章于 2022-11-24 21:17:03 发布

阅读量973

点赞数 1

分类专栏：数据挖掘算法文章标签：数据挖掘贝叶斯

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u011060119/article/details/52890414

版权

本文介绍了Naive Bayes算法的基础知识，包括其在2分类情况下的工作原理，以及朴素贝叶斯分类的基本思想。文章阐述了如何通过训练数据计算先验概率和后验概率，并给出了预测新样本类别的过程。最后提到了在文本分类中的应用，使用了IKSegmenter进行分词。

摘要由CSDN通过智能技术生成

一、什么是Naive Bayes？

在2分类的情况下：使用类别已知的初始对象（训练数据）构造一一个划分器，使得获得叫大分值的对象同类别1关联而获得较小分值的对象同类别0关联。划分器对新对象给出分值，将该对象的得分同某个预定的“分类阈值”进行比较即可实现分类，得分大于阈值就分到类别1，小于阈值就分到类别0。据此扩充到多分类。

二、Naive Bayes 算法思想。

朴素贝叶斯分类基于一个简单的假定：在给定分类特征条件下，描述属性值之间是相互条件独立的。

朴素贝叶斯分类思想是：假设每个样本用一个n维特征向量X={x1，x2，…，xn}来表示，描述属性为A1、A2、…、An（Ai之间相互独立）。类别属性为C，假设样本中共有m个类即C1、C2、…、Cm，对应的贝叶斯网如图所示。

给定一个未知类别的样本X，朴素贝叶斯分类将预测X属于具有最高后验概率P(Ci|X)的类，也就是说，将X分配给类Ci，当且仅当：

P(Ci|X)>P(Cj|X)，1≤j≤m，i≠j

根据贝叶斯定理有：

由于P(X)对于所有类为常数，只需要最大化P(X|Ci)P(Ci)即可。

所以对于某个样本（a1，a2，…，an)，它所在类别为：

训练：输入：训练数据集S

输出：各个类别的先验概率P(Ci)，各个类的后验概率

最低0.47元/天解锁文章

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。