使用朴素贝叶斯分类器进行文档分类

本文详细介绍了朴素贝叶斯分类器的工作原理,包括贝叶斯定理、条件独立假设、参数估计方法(极大似然估计与贝叶斯估计),并讨论了其优缺点及适用数据类型。通过实战示例展示了如何使用朴素贝叶斯进行文档分类,揭示了该方法在处理离散数据时的有效性。
摘要由CSDN通过智能技术生成

朴素贝叶斯分类器

朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法。对于给定的训练数据集,首先基于特征条件独立假设学习输入/输出的联合概率分布;然后基于此模型,对于给定的输入x,利用贝叶斯定理求出后验概率最大的y。之所以称其为“朴素”,就是因为做出了特征条件独立的假设。

优点: 在数据较少的情况下仍然有效,可以处理多类别问题
缺点: 对于输入数据的准备方式较为敏感
适用数据类型: 标称型数据


基本方法

假定训练数据集

T={ (x1,y1),(x2,y2),...,(xn,yn)}

是由 P(X,Y) 独立同分布产生。

朴素贝叶斯法通过训练数据集学习联合概率分布 P(X,Y) 。具体地,学习以下先验概率分布和条件概率分布,先验概率分布

P(Y=ck),k=1,2,...,K

条件概率分布
P(X=x|Y=ck)=P(X(1),...,X(n)=x(n)|Y=ck),k=1,2,,...,K

于是学习到联合概率分布 P(X,Y) .
P(X,Y)=P(X=x|Y=ck)P(Y=ck)

条件概率分布有指数级数量的参数,起估计实际是不可行的。 x(j) 可能取值 Sj 个,j = 1,2,…,n,Y的可能取值有K个,那么参数个数为 Knj=1Sj ,这意味着维度灾难。

朴素贝叶斯法对条件概率分布作了条件独立性的假设,由于这是一个较强的假设,朴素贝叶斯法也由其得名。具体地,条件独立性假设是

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值