《机器学习实战》——朴素贝叶斯分类

本文深入探讨朴素贝叶斯分类方法,基于特征条件独立假设学习输入/输出的联合概率分布。讲解了先验概率、条件概率、贝叶斯定理的应用,并介绍了参数估计中的极大似然估计和贝叶斯估计。尽管朴素贝叶斯法在实际问题中存在假设简化,但在数据有限的情况下仍展现出有效性。
摘要由CSDN通过智能技术生成

朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法。对于给定的训练数据集,首先基于特征条件独立假设学习输入/输出的联合概率分布;然后基于此模型,对给定输入x,利用贝叶斯定理计算后验概率最大的输出y。朴素贝叶斯法在数据较少的情况下任然有效,但对输入数据的准备方式较为敏感。

一、基本方法

设输入空间X为n维向量的集合,输出空间为类标记集合Y={c1,c2,...,ck}。输入为特征向量x∈X,输出为类标记y属于Y。X是定义在输入空间X上的随机变量,Y是定义在输出空间Y上的随机变量。用P(X,Y)表示X和Y的联合概率分布。

训练数据集:

T={(x1,y1),(x2,y2),...,(xN,yN)}

由P(X,Y)独立同分布产生(在概率统计理论中,如果变量序列或者其他随机变量有相同的概率分布,并且互相独立,那么这些随机变量是独立同分布)

朴素贝叶斯法就是通过训练数据集来学习联合概率分布P(X,Y)。具体地,就是学习先验概率分布条件概率分布

先验概率分布:

P(Y=ck),k=1,2,...K         (1)

条件概率分布:

P(X=x|Y=ck)=P(X(1)=x(1),...X(n)=x(n)|Y=ck), k=1,2,...K        (2)

条件概率分布有指数数量的参数:假设X有S个特征,Y有K个取值,则参数数量:K∏Si

朴素贝叶斯的假设:

朴素贝叶斯与贝叶斯的区别在于他对条件概率分布作了条件独立性假设,所谓“独立”即一个特征出现的可能性与其他特征是否出现没有关系,且每个特征都同等重要。当然该假设在实际问题中也存在问题,例如,在做垃圾邮件判断时,假设每个单词出现的位置是概率相同的,但实际中有些单词经常是共同出现的;并且有时候不用所有的特征就能做出判断。

朴素贝叶斯分类器:

朴素贝叶斯分类时,对于给定的输入x,通过学习的模型计算后验概率分布P(Y=ck|X=x),将后验概率最大的类作为x的类输出。

后验概率根据贝叶斯定理计算:

由贝叶斯公式:

P(A|B)=(P(B|A)*P(A))/P(B)
得到后验概率分布:
            (3)
把(3&#
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值