朴素贝叶斯分类器

贝叶斯决策论

      在所有相关概率都已知的情况下,贝叶斯决策论考虑如何基于这些概率和误判损失来选择最优的类别标记。
      假设有N种可能的类别标记,即 Y={c1,c2,...,cN},λij 是将一个真实标记为 cj 的样本误分类为 ci 所产生的损失。基于后验概率 P(ci|x) 可获得样本 x 分类为ci所产生的期望损失,即在样本 x 上的“条件风险”(在决策论中将期望损失称为风险):

R(ci|x)=j=1NλijP(cj|x)

      我们的任务是寻找一个判定准则 h:χY

R(h)=Ex[R(hx)|x]

      显然,对每个样本 x ,若h能最小化条件风险R(h(x)|x),则总体风险 R(h) 也将被最小化。这就产生了贝叶斯判定准则:为最小化总体风险,只需在每个样本上选择那个使条件风险 R(c|x) 最小的类别标记:

h(x)=argmincYR(c|x)

      此时, h 称为贝叶斯最优分类器,与之对应的总体风险 R(h) 称之为贝叶斯风险, 1R(h) 反映了分类器所能达到的最好性能,即通过机器学习所能产生的模型精度的理论上限。
若木表是最小化分类错误率,则 λij 可写为:

λij={01ifi=jotherwise

      此时条件风险:

R(c|x)=1P(c|x)

      于是,最小化分类错误率的贝叶斯最优分类器为:

h(x)=argmaxcYP(c|x)

      对每个样本 x ,选择能使后验概率P(c|x)最大的类别标记。

      想要使用贝叶斯判定准则来最小化决策风险,首先要获得后验概率 P(c|x) ,这通常难以直接获得。从这个角度出发,机器学习所要实现的是基于有限的训练样本集尽可能准确地估计出后验概率 P(c|x) 。事实上,很多机器学习方法无须准确估计后验概率就能准确进行分类。

      大体来说,主要有两种策略:1.给定x,通过直接建模 P(c|x) 来预测 c ,这属于“判别式模型”;也可先对联合概率分布P(c,x)建模,然后再获得 P(c|x) ,这属于“生成式模型”。对于后者,必然考虑:

P(c|x)=P(c)P(x|c)P(x)

      类先验概率 P(c) 对所有类别标记均相同,可通过各类样本出现的频率进行估计。

      类条件概率 P(x|c) 亦称之为”似然”,由于涉及x所有属性的联合分布,直接根据样本出现的频率进行估计将会遇到严重的困难。假设样本的 d 个属性都是二值的,则样本空间将有2d中可能性,很多取值在训练集中可能根本就没有出现,直接使用频率估计 P(x|c) 显然不可行,因为“未被观测到”与“出现概率为零”是不同的。

极大似然估计

      概念理解:一般来说,时间 A 发生的概率与某一未知的参数θ有关, θ 取值不同,则事件 A 发生的概率P(A|θ)也不相同,当我们在一次试验中事件 A 发生了,则认为此时的θ值应是其一切可能取值中使得 P(A|θ) 达到最大的那一个值,极大似然估计就是要找出这样的值作为参数 θ 的估计值,从而使得所选取的样本在数据集中出现的可能性最大。

      最大似然估计是常用的参数估计方法之一,即已知某个随机样本满足某种概率分布,但是具体的参数未知,参数估计就是通过若干次实验通过其结果推测参数的大概值。

      估计类条件概率的一种常用策略是:先假定类条件概率具有某种确定的概率分布形式,再基于训练数据集对概率分布的参数进行估计。具体地,即关于类别c的类条件概率为 P(x|c) ,假设 P(x|c) 具有确实的形式并且被参数向量 θc 唯一确定,则我们的任务就是利用训练集 D 估计参数θc。将 P(x|c) 记为 P(x|θc)

      事实上,概率模型的训练过程就是参数估计的过程。统计学派认为参数虽未知,但是客观存在的固定值,因此可通过优化似然函数来确定参数值;贝叶斯学派认为,参数也可能具有某种分布,可假设参数服从一个先验分布,然后基于观测到的数据来计算参数的后验概率。极大似然估计属于前者。

      令 Dc 表示训练集 D 中第c类样本组成的集合,假设这些样本是独立同分布的,则参数 θc 对于数据集 Dc 的似然:

P(Dc|θc)=xDcP(x|Dc)

      对 θc 进行极大似然估计就是寻找能使最大化似然 P(Dc|θc) 的参数 θ^c 。直观上看,极大似然估计是试图在 θc 所有可能的取值中找到一个能使数据出现的“可能性”最大的值。

      对以上的连乘操作易造成下溢,通常使用对数似然:

LL(θc)=logP(Dc|θc)=xDclogP(x|θc)

      此时参数的最大化似然估计 θ^c 为:

θ^c=argmaxθcLL(θc)

朴素贝叶斯分类器

      基于贝叶斯公式估计后验概率 P(c|x) 的主要困难在于:类条件概率 P(x|c) 是所有属性上的联合概率,难以从有限的数据集或者训练样本中直接估计而得。为避开这个障碍,朴素贝叶斯分类器采用了“属性条件独立性假设”:对已知的类别,假设属性相互独立,即每个属性独立的对分类结果产生影响。

      由属性条件独立性假设可得:

P(c|x)=P(c)P(x|c)P(x)=P(c)P(x)i=1dP(xi|c)

      对于所有的类别来说, P(x) 相同,因此:

hnb(x)=argmaxcYP(c)i=1dP(xi|c)

      这就是朴素贝叶斯分类器的思想。

      基于训练数据集估计类先验概率 P(c) ,并为每一属性估计条件概率 P(xi|c)

P(c)=|Dc||D|

      如果属性是离散的:

P(xi|c)=|Dc,xi||Dc|

      如果属性是连续的,可以考虑密度函数,假设
p(xi|c)N(μc,i,σ2c,i)

      其中 μc,i σ2c,i 分别是第 c 类样本在第i个属性上取值的均值和方差,则有:
p(xi|c)=12πσc,iexp(xiμc,i)22σ2c,i


声明:本文内容引自周志华老师《机器学习》。

朴素贝叶斯分类器(Naive Bayes classifier)是一种常用的概率分类方法,它基于贝叶斯理论和特征独立假设。朴素贝叶斯分类器有着简单高效的特点,在文本分类、垃圾邮件过滤、情感分析等领域都有广泛应用。 朴素贝叶斯分类器的基本原理是利用训练集的特征和对应的分类标签构建生成模型,然后根据测试样本的特征,通过计算后验概率来进行分类预测。具体而言,朴素贝叶斯分类器假设特征之间相互独立,基于此假设,可以通过训练集中特征在各个类别下的条件概率来计算样本在不同类别下的后验概率,并选择后验概率最大的类别作为分类结果。 朴素贝叶斯分类器的训练过程包括两个步骤:首先是计算各个类别的先验概率,即每个类别在训练集中的出现频率;然后是计算每个特征在各个类别下的条件概率,即给定一个类别时,特征的条件概率。在得到先验概率和条件概率后,可以通过贝叶斯公式计算后验概率。 朴素贝叶斯分类器的优点在于对小规模数据集具有较好的分类性能,且能够处理多类别分类问题。而其缺点则是对于特征之间的相关性较为敏感,当特征之间存在强相关性时,朴素贝叶斯分类器的性能会下降。 总的来说,朴素贝叶斯分类器是一种简单而有效的分类方法,它在许多实际应用中表现出色。其理论基础扎实,实现相对简单,适用于处理小规模数据集的分类问题。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值