机器学习笔记—模式分类(四)参数判别估计法3(贝叶斯参数估计)​​​​​​​

前序文章:

机器学习笔记—模式分类(一)绪论&贝叶斯决策论

机器学习笔记—模式分类(二)参数判别估计法(最大似然估计和贝叶斯参数估计)1

机器学习笔记—模式分类(三)参数判别估计法2(最大似然估计)

同类文章:

机器学习笔记—模式识别与智能计算(四)基于概率统计的贝叶斯分类器设计(贝叶斯决策)

 

3、贝叶斯估计

       在最大似然估计方法中,把需要估计的参数向量θ看作是一个确定而未知的参数;而在贝叶斯学习方法中,把参数向量θ看成一个随机变量,已有的训练样本使我们能够把对于θ的初始密度p(θ)的估计转化为后验概率密度p(θ|D)。

       贝叶斯估计的假设:

(1)现有的全部信息一部分为我们的先验知识,如未知概率密度函数m的形式、未知参数的取值范围等,另一部分则来自训练样本本身;

(2)同最大似然估计,对于c类样本集,如果i!=j,那么样本集Di中的训练样本对p(x|wj,D)没有任何影响,根据贝叶斯公式p(wi|x,D)可以通过p(x|wi,Di)(即后面的p(x|D))计算得到;由于能够对每一类别进行处理,因此公式中为了说明各个类别的记号都可以省略,从而简化公式的形式;

(3)虽然具体的概率密度p(x)未知,但假设其参数形式已知,唯一未知的是参数向量θ的值,为表示这个意思我们强调条件概率密度p(x|θ)是完全已知的,只是θ未知。

       在上述假设条件下,我们要处理的是c个独立的问题,每一个问题都是如下形式:已知一组样本D,这些样本都是从固定但未知的概率密度函数p(x)中独立抽取的,要求根据这些样本估计p(x|D),这就是贝叶斯学习的核心问题。

       在观察到具体的训练样本之前,我们已有的关于参数向量θ的全部知识可以用θ的先验概率密度p(θ)来体现,根据训练样本的观察和贝叶斯公式,θ的后验概率密度p(θ|D)可以通过θ的先验概率密度p(θ)计算得到,并且我们希望p(θ|D)在θ的真实值附近有非常显著的尖峰。

       根据贝叶斯估计的核心公式

                                                                     p(x|D)=\int p(x|\theta )p(\theta|D)d\theta

类条件概率密度p(x|D)可以通过未知参数量θ的后验概率密度p(θ|D)计算得到。

       如果后验密度在某个值θ'附近形成最显著的尖峰,那么有p(x|D)≈p(x|θ')(p(x|θ')可看成是用极大似然估计求出θ'进而求出p(x|θ')的结果),即用估计值θ'近似代替真实值(前提是p(x|θ)光滑且积分拖尾的影响足够小,一般都能满足)。

       总结前面的讨论,如果未知的概率密度函数p(x|θ)具有一个已知的形式的话,已有的训练样本D能够通过参数后验密度p(θ|D)对类条件概率密度p(x|D)的估计施加影响。

4、贝叶斯参数估计:高斯情况

       对于贝叶斯估计的单变量高斯情况,p(μ|D)的分布参数μn和σn^2公式显示了参数先验知识p(μ)和样本观测结果p(x|μ)是如何被结合在一起并形成参数的后验概率p(μ|D)的;

       μn代表了在观察到n个样本后对μ的真实值的最好估计,σn^2反映了对这个估计的不确定程度;

       当n增加时,p(μ|D)的波形变得越来越尖,且在n趋于无穷大时,逼近狄拉克函数,这一现象被称为贝叶斯学习过程

       为了得到类条件概率密度函数p(x|D),其参数形式为已知的p(x|μ)服从N(μ, σ^2),只需用μn替换μ、用 σ^2+σn^2替换σ^2即可;

       p(x|D)就是类条件概率密度函数p(x|wi,Di),结合先验概率P(wi),我们就完全掌握了设计贝叶斯分类器所需的概率知识。

       在这点上贝叶斯估计方法与最大似然方法不同,因为最大似然方法仅仅是估计μ和σ^2的值,而不是估计p(x|D)的分布。

5 贝叶斯参数估计:一般理论

       参数估计的递归贝叶斯方法是我们遇到的第一个“增量学习”或在线学习算法,其特点是学习过程随着观察数据的不断获得而不断进行,如果这一概率密度函数的序列最终能够收敛到一个中心在参数的真实值附近的狄拉克函数,那么就实现了贝叶斯学习过程。

       与最大似然法不同的是,最大似然法估计的是θ空间中的一个点,而贝叶斯方法估计的则是一个概率分布;严格来说,不能直接比较这两种方法技术本身,只有在计算概率密度p(x|D)时才可能进行一个公平的比较。

       对于通常能遇到的典型条件概率密度函数p(x|θ),未知参量θ后验概率密度函数序列p(θ|Dn)一般都能收敛到狄拉克函数,这就意味着只要训练样本的数量足够多,就能够确定唯一的一个最适合这些训练样本的θ的值,即未知参量θ能够被条件概率密度函数p(x|θ)唯一确定,在这种情况下概率密度函数p(x|θ)被称为可辨识的。

       对于参数的先验概率保证问题有解的情况下,最大似然估计和贝叶斯估计在训练样本趋近于无穷时效果是一样的。

       在实际训练样本有限的情况下,选取最大似然估计还是贝叶斯估计通常需要考虑几项标准:

(1)计算的复杂度—最大似然法涉及一些微分运算或梯度搜索技术,而贝叶斯估计方法可能要求计算非常复杂的多重积分;

(2)可理解性—最大似然法得到的结果是基于训练样本的一个最佳解答,较容易理解,而贝叶斯估计方法得到的结果是许多可行解答的加权平均值,反映出对各种可行解答的不确定程度,反映出对所使用的模型的剩余的不确定性;

(3)对初始先验知识的信任程度,如对条件概率密度函数p(x|θ)的形式—最大似然估计得到的结果与初始假设的形式一致,而贝叶斯估计未必,通过使用全部p(θ|D)中的信息产生更多有用的信息。在参数没有特别的先验知识的情况下(如均匀分布),贝叶斯估计方法与最大似然估计方法相似,如果有非常多的训练样本,使得p(θ|D)形成一个非常显著的尖峰,而参数先验概率p(θ)又是均匀分布情况下,前面所述的最大后验概率估计(MAP估计)在本质上也是与最大似然估计相同的。

         当使用最大似然估计或贝叶斯估计的结果设计分类器时,采用的还是贝叶斯决策论的方法:对每一类别都计算后验概率密度函数p(wi|x),根据最大后验概率P(wi|x)对测试样本进行分类。那么分类器产生的最终分类误差来源有:

(1)贝叶斯误差或不可分性误差,由于不同类别的类条件概率密度p(x|wi)之间的画像重叠引起的,这种分类误差时问题本身所固有的,因此永远无法消除;

(2)模型误差,由于选择了不正确的模型所导致的分类误差,这一误差在最大似然和贝叶斯估计中的影响时类似的;

(3)估计误差,由于采用有限样本进行估计带来的误差。在理论上贝叶斯估计有很强的理论和算法基础;但在实际应用中,最大似然估计更加简便,设计出的分类器性能几乎与贝叶斯方法得到的结果相差无几。

         无信息先验:在贝叶斯决策论中,在处理每一类别的先验概率时,如果没有其他的特别信息,那么我们都简单地建设每一类的概率相同;类似地,在贝叶斯估计方法中,我们对每一个参数也有一个无信息的先验估计,如满足平移不变性等。

         如果已经知道必须满足的不变性如平移不变性、对离散分布要求样本选取顺序的无关性,那么就会对先验概率的可能具有的形式带进约束,如果能找到满足这种约束的分布,那么最后的结果就称为对这些不变性要求是无信息的。

         在前述假设下,贝叶斯最优分类器能够达到最佳的分类效果,然而类条件概率密度

                                                                     p(x|D)=\int p(x|\theta )p(\theta|D)d\theta

的积分可能非常复杂,为减低难度,一个变通的方法是依据参数后验密度p(θ|D)仅仅选取一个参数向量θ并且把它当做真实值,这就是吉布斯/Gibbs算法,在较弱的条件下,Gibbs算法的误差概率至多是贝叶斯最优分类器的两倍。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值