数据挖掘算法之 Naive Bayes

本文介绍了Naive Bayes算法的基础知识,包括其在2分类情况下的工作原理,以及朴素贝叶斯分类的基本思想。文章阐述了如何通过训练数据计算先验概率和后验概率,并给出了预测新样本类别的过程。最后提到了在文本分类中的应用,使用了IKSegmenter进行分词。
摘要由CSDN通过智能技术生成

一、什么是Naive Bayes?

       在2分类的情况下:使用类别已知的初始对象(训练数据)构造一一个划分器,使得获得叫大分值的对象同类别1关联而获得较小分值的对象同类别0关联。划分器对新对象给出分值,将该对象的得分同某个预定的“分类阈值”进行比较即可实现分类,得分大于阈值就分到类别1,小于阈值就分到类别0。 据此扩充到多分类。

二、Naive Bayes 算法思想。

    朴素贝叶斯分类基于一个简单的假定:在给定分类特征条件下,描述属性值之间是相互条件独立的。

    朴素贝叶斯分类思想是:假设每个样本用一个n维特征向量X={x1,x2,…,xn}来表示,描述属性为A1、A2、…、An(Ai之间相互独立)。类别属性为C,假设样本中共有m个类即C1、C2、…、Cm,对应的贝叶斯网如图所示。

                                                                     

给定一个未知类别的样本X,朴素贝叶斯分类将预测X属于具有最高后验概率P(Ci|X)的类,也就是说,将X分配给类Ci,当且仅当:

P(Ci|X)>P(Cj|X),1≤j≤m,i≠j

根据贝叶斯定理有:

                                                                 

由于P(X)对于所有类为常数,只需要最大化P(X|Ci)P(Ci)即可。

                                                                  

所以对于某个样本(a1,a2,…,an),它所在类别为:

                                                         

训练: 输入:训练数据集S

    输出:各个类别的先验概率P(Ci),各个类的后验概率

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值