机器学习->统计学基础->贝叶斯估计,最大似然估计(MLE),最大后验估计(MAP)

在学习机器学习,推荐系统等上的众多算法思想时,以及在数学公式推到上面,避免不了许多统计学方面的知识,其中以贝叶斯,最大似然估计,最大后验估计为最常遇见,必须深刻掌握了解。
本篇博文将以以下几个主题来讨论,总结。

  • 频率派与贝叶斯学派
  • 贝叶斯公式推导
  • 最大似然函数(MLE)
  • 最大似然估计与最大后验估计区别与联系

频率派与贝叶斯学派

首先讲讲贝叶斯估计(对比传统频率学来讲)
在我们传统的频率学来说,需要推断的参数theta是固定未知的,是个确定的值,而样本是随机的,所以频率派重点研究样本空间,大部分的概率计算都是针对样本X 的分布;
例如:有一个袋子,里面装着若干个白球和黑球,请问从袋子中取得白球的概率是多少?”他们会想都不用想,会立马告诉你,取出白球的概率就是1/2,要么取到白球,要么取不到白球,即θ只能有一个值,而且不论你取了多少次,取得白球的概率θ始终都是1/2,即不随观察结果X 的变化而变化。

而贝叶斯派的观点则截然相反,他们认为参数是随机变量,而样本X 是固定的,由于样本是固定的,所以他们重点研究的是参数的分布
贝叶斯学派并不从试图刻画「事件」本身,而从「观察者」角度出发。贝叶斯学派并不试图说「事件本身是随机的」,或者「世界的本体带有某种随机性」,这套理论根本不言说关于「世界本体」的东西,而只是从「观察者知识不完备」这一出发点开始,构造一套在贝叶斯概率论的框架下可以对不确定知识做出推断的方法。频率学派下说的「随机事件」在贝叶斯学派看来,并不是「事件本身具有某种客观的随机性」,而是「观察者不知道事件的结果」而已,只是「观察者」知识状态中尚未包含这一事件的结果。但是在这种情况下,观察者又试图通过已经观察到的「证据」来推断这一事件的结果,因此只能靠猜。贝叶斯概率论就想构建一套比较完备的框架用来描述最能服务于理性推断这一目的的「猜的过程」。因此,在贝叶斯框架下,同一件事情对于知情者而言就是「确定事件」,对于不知情者而言就是「随机事件」,随机性并不源于事件本身是否发生,而只是描述观察者对该事件的知识状态。

总的来说,贝叶斯概率论为人的知识(knowledge)建模来定义「概率」这个概念。频率学派试图描述的是「事物本体」,而贝叶斯学派试图描述的是观察者知识状态在新的观测发生后如何更新。为了描述这种更新过程,贝叶斯概率论假设观察者对某事件处于某个知识状态中(例如:小明先验地相信一枚硬币是均匀的,可能是出于认为均匀硬币最常见这种信念),之后观察者开始新的观测或实验(小明开始不断地抛硬币,发现抛了100次后,居然只有20次是正面朝上)。经过中间的独立重复试验,观察者获得了一些新的观测结果,这些新的观测将以含有不确定性的逻辑推断的方式影响观察者原有的信念(小明开始怀疑这枚硬币究竟是不是均匀的,甚至开始断定硬币并不均匀)。在这一过程中,观察者无法用简单的逻辑来推断,因为观察者并没有完全的信息作为证据,因此只能采用似真推断(plausible reasoning),对于各种各样可能的结果赋予一个「合理性」(plausibility)。例子中,小明原先认为硬币的分布是均匀的,于是根据小明原有的信念,这个论断合理性非常高;在观察到100次抛掷中只有20次正面朝上后,小明开始怀疑硬币的均匀性,此时小明很可能认为「硬币不均匀」这一推断的合理性很高,支持的证据就是他刚刚实验的观测结果。

对比以上传统频率学派和贝叶斯学派差异来说,两者的立足点和着眼点不同,频率学派从「自然」角度出发,试图直接为「事件」本身建模,即事件A在独立重复试验中发生的频率趋于极限p,那么这个极限就是该事件的概率。参数是固定的,样本是随机的,只要样本分布确定了,参数就是个固定的确定的值,他们相信数据都是在这个空间里的”某个“参数值下产生的(虽然你不知道那个值是啥,但他是个已经存在和不变的数),所以他们的方法论一开始就是从“哪个值最有可能是真实值”这个角度出发的。于是就有了最大似然(maximum likelihood)以及置信区间(confidence interval)这样的东西,你从名字就可以看出来他们关心的就是我有多大把握去圈出那个唯一的真实参数;而贝叶斯学派则认为,参数是随机的,样本是固定的,随着实验结果的出现,我们不断获取新的样本信息,并且不断去修正参数,参数是变化着的,他们关心参数空间里的每一个值,因为他们觉得我们又没有上帝视角,怎么可能知道哪个值是真的呢?所以参数空间里的每个值都有可能是真实模型使用的值,区别只是概率不同而已。于是他们才会引入先验分布(prior distribution)和后验分布(posterior distribution)这样的概念来设法找出参数空间上的每个值的概率。最好诠释这种差别的例子就是想象如果你的后验分布是双峰的,频率学派的方法会去选这两个峰当中较高的那一个对应的值作为他们的最好猜测,而贝叶斯学派则会同时报告这两个值,并给出对应的概率。

以我的理解,频率学的起点是由参数决定数据分布,数据一旦定了,参数就确定了,我们做的是逼近参数的真实值,例如以频率近似概率,模型是确定的即使有了大量实验结果也不需要考虑新的样本信息,即是不考虑其先验概率;而贝叶斯学派的起点是,数据分布决定参数,刚开始我们只有对参数的先验知识(以频率近似概率),而不知道数据分布,在进行大量实验后,不断获取新的数据样本可能需要调整模型(即是调整先验概率)

至此,贝叶斯及贝叶斯派提出了一个思考问题的固定模式:
先验分布 这里写图片描述+ 样本信息 这里写图片描述=后验分布这里写图片描述
上述思考模式意味着,新观察到的样本信息这里写图片描述将修正人们以前对事物的认知。换言之,在得到新的样本信息之前,人们对的认知是先验分布这里写图片描述,在得到新的样本信息后,人们对的认知为这里写图片描述
而后验分布一般也认为是在给定样本的情况下的条件分布,而使达到最大的值这里写图片描述称为最大后验估计,类似于经典统计学中的极大似然估计。

贝叶斯公式推导

条件概率(又称后验概率)就是事件A在另外一个事件B已经发生条件下的发生概率。条件概率表示为P(A|B),读作“在B条件下A的概率”。
比如,在同一个样本空间Ω中的事件或者子集A与B,如果随机从Ω中选出的一个元素属于B,那么这个随机选择的元素还属于A的概率就定义为在B的前提下A的条件概率,所以:P(A|B) = |A∩B|/|B|,接着分子、分母都除以|Ω|得到
这里写图片描述
联合概率表示两个事件共同发生的概率。A与B的联合概率表示为这里写图片描述或者这里写图片描述
边缘概率(又称先验概率)是某个事件发生的概率。边缘概率是这样得到的:在联合概率中,把最终结果中那些不需要的事件通过合并成它们的全概率,而消去它们(对离散随机变量用求和得全概率,对连续随机变量用积分得全概率),这称为边缘化(marginalization),比如A的边缘概率表示为P(A),B的边缘概率表示为P(B)。
贝叶斯定理便是基于下述贝叶斯公式:
这里写图片描述
上述公式的推导其实非常简单,就是从条件概率推出。
根据条件概率的定义,在事件B发生的条件下事件A发生的概率是
这里写图片描述

同样地,在事件A发生的条件下事件B发生的概率
这里写图片描述
整理与合并上述两个方程式,便可以得到:
这里写图片描述
接着,上式两边同除以P(B),若P(B)是非零的,我们便可以得到贝叶斯定理的公式表达式:
这里写图片描述

最大似然估计(MLE)

我们重新看一眼贝叶斯公式:
这里写图片描述

先不考虑先验概率 P(Y)与P(X) ,观察两个后验概率 P(Y|X)与P(X|Y) ,可见贝叶斯公式能够揭示两个相反方向的条件概率之间的转换关系。

从贝叶斯公式的发现历史来看,其就是为了处理所谓“逆概”问题而诞生的。比如 P(Y|X) 不能通过直接观测来得到结果,而 P(X|Y) 却容易通过直接观测得到结果,就可以通过贝叶斯公式从间接地观测对象去推断不可直接观测的对象的情况。

用邮件分类的例子,这是现在不只要判断垃圾邮件,还要将正常邮件细分为私人邮件、工作邮件。现在有这3类邮件各1万封作为样本。需要训练出一个贝叶斯分类器。这里依次用 Y1,Y2,Y3表示这三类邮件,用 X表示被判断的邮件。套用贝叶斯公式有:
这里写图片描述

通过比较3个概率值的大小即可得到 X 所属的分类。发现三个式子的分母 P(X)一样,比较大小时可以忽略不计,于是就可以用下面这一个式子表达上面3式:
P(Yi|X)∝P(X|Yi)P(Yi);i=1,2,3

其中 ∝ 表示“正比于”。而 P(X|Yi)则有个特别高逼格的名字叫做“似然函数”。我们有时候也被这个名字搞得晕晕乎乎的,其实它也是个概率,直接理解成“ P(Yi|X) 的逆反条件概率” 就方便了。

在垃圾邮件的例子中,先验概率都相等, P(Y1)=P(Y2)=P(Y3)=10000/30000=1/3,所以上面是式子又可以进一步化简:
P(Yi|X)∝P(X|Yi);i=1,2,3
只需比较右边式子(也就是“似然函数”)的大小就可以了。这种方法就是传说中的最大似然法:不考虑先验概率p(Yi)而直接比较似然函数。

关于选出最佳分类 Yi 是否要考虑先验概率 P(Yi) 的问题,曾经在频率学派和贝叶斯学派之间产生了激烈的教派冲突。统计学家(频率学派)说:我们让数据自己说话。言下之意就是要摒弃先验概率。而贝叶斯学派支持者则说:数据会有各种各样的偏差,而一个靠谱的先验概率则可以对这些随机噪音做到健壮。对此有兴趣的同学可以找更多资料进行了解,本文在此不做更多的引申,只基于垃圾邮件识别的例子进行探讨。

比如我们在采集垃圾邮件样本的时候,不小心delete掉了一半的数据,就剩下5000封邮件。则计算出来的先验概率为:

这里写图片描述

如果还用贝叶斯方法,就要在似然函数后面乘上先验概率。比如之前用最大似然法算出 Y1 垃圾邮件的概率大,但是因为 P(Y1)特别小,用贝叶斯方法得出的结果是 Y2 私人邮件的概率大。那相信哪个呢?其实,我们删掉了部分带标签的样本,从计算结果看 P(Y1),P(Y2),P(Y3)的概率分布变化了,但实际上这三个类别的真实分布应该是一个客观的状态,不应该因为我们的计算方法而发生变化。所以是我们计算出来的先验概率失真,应该放弃这样计算出来的先验概率,而用最大似然法。但即便我们不删掉一半垃圾邮件,这三类邮件的分布就真的是1:1:1那样平均吗?那也未必。我们只是按1:1:1这样的方式进行了抽样而已,真正在邮箱里收到的这三类邮件的分布可能并不是这样。也就是说,在我们对于先验概率一无所知时,只能假设每种猜测的先验概率是均等的(其实这也是人类经验的结果),这个时候就只有用最大似然了。在现实运用过程中如果发现最大似然法有偏差,可以考虑对不同的似然函数设定一些系数或者阈值,使其接近真实情况。

但是,如果我们有足够的自信,训练集中这三类的样本分布的确很接近真实的情况,这时就应该用贝叶斯方法。难怪前面的贝叶斯学派强调的是“靠谱的先验概率”。所以说贝叶斯学派的适用范围更广,关键要先验概率靠谱,而频率学派有效的前提也是他们的先验概率同样是经验统计的结果。

最大似然估计简单来说就是模型确定,参数未知。不考虑先验概率p(Yi),因此属于频率学派。就是已知模型的前提下,似然函数(概率)最大时对应的参数。

最大似然估计中采样需满足一个很重要的假设,就是所有的采样都是独立同分布的。下面我们具体描述一下最大似然估计:

首先,假设这里写图片描述为独立同分布的采样,θ为模型参数,f为我们所使用的模型,遵循我们上述的独立同分布假设。参数为θ的模型f产生上述采样可表示为:
这里写图片描述
回到上面的“模型已定,参数未知”的说法,此时,我们已知的为,未知为θ,故似然定义为:
这里写图片描述
在实际应用中常用的是两边取对数,得到公式如下:
这里写图片描述
其中这里写图片描述称为对数似然,而称为平均对数似然。而我们平时所称的最大似然为最大的对数平均似然,即:
这里写图片描述
由上可知最大似然估计的一般求解过程:

  (1) 写出似然函数;

  (2) 对似然函数取对数,并整理;

  (3) 求导数 ;

  (4) 解似然方程
  
注意:最大似然估计只考虑某个模型能产生某个给定观察序列的概率。而未考虑该模型本身的概率即先验概率。这点与贝叶斯估计区别。

最大后验估计(MAP)

最大后验估计是根据经验数据获得对难以观察的量的点估计。与最大似然估计类似,但是最大的不同时,最大后验估计的融入了要估计量的先验分布在其中。故最大后验估计可以看做规则化的最大似然估计。

首先,我们回顾上篇文章中的最大似然估计,假设x为独立同分布的采样,θ为模型参数,f为我们所使用的模型。那么最大似然估计可以表示为:
这里写图片描述

现在,假设θ的先验分布为g。通过贝叶斯理论,对于θ的后验分布如下式所示:
这里写图片描述
最后验分布的目标为:
这里写图片描述

注:贝叶斯要考虑其先验概率,即需要在似然函数后乘以其先验概率。

举个例子来说:
假设有五个袋子,各袋中都有无限量的饼干(樱桃口味或柠檬口味),已知五个袋子中两种口味的比例分别是

    樱桃 100%

    樱桃 75% + 柠檬 25%

    樱桃 50% + 柠檬 50%

    樱桃 25% + 柠檬 75%

    柠檬 100%

  如果只有如上所述条件,那问从同一个袋子中连续拿到2个柠檬饼干,那么这个袋子最有可能是上述五个的哪一个?

我们首先采用最大似然估计来解这个问题,写出似然函数。假设从袋子中能拿出柠檬饼干的概率为p(我们通过这个概率p来确定是从哪个袋子中拿出来的),则似然函数可以写作
这里写图片描述
由于p的取值是一个离散值,即上面描述中的0,25%,50%,75%,1。我们只需要评估一下这五个值哪个值使得似然函数最大即可,得到为袋子5。这里便是最大似然估计的结果。

上述最大似然估计有一个问题,就是没有考虑到模型本身的概率分布,下面我们扩展这个饼干的问题。

假设拿到袋子1或5的机率都是0.1,拿到2或4的机率都是0.2,拿到3的机率是0.4,那同样上述问题的答案呢?这个时候就变MAP了。我们根据公式
这里写图片描述

因为上面的后验概率通常是很难计算的,因为要对所有的参数进行积分,不能找到一个典型的闭合解(解析解)。在这种情况下,我们采用了一种近似的方法求后验概率,这就是最大后验概率。
这里写图片描述=这里写图片描述

写出我们的MAP函数:
这里写图片描述
根据题意的描述可知,p的取值分别为0,25%,50%,75%,1,g的取值分别为0.1,0.2,0.4,0.2,0.1.分别计算出MAP函数的结果为:0,0.0125,0.125,0.28125,0.1.由上可知,通过MAP估计可得结果是从第四个袋子中取得的最高。

最大似然估计与最大后验估计区别与联系

在MAP中我们应注意的是:

MAP与MLE最大区别是MAP中加入了模型参数本身的概率分布,即是否考虑了先验知识。或者说。MLE中认为模型参数本身的概率的是均匀的,即该概率为一个固定值。

最大后验概率和极大似然估计很像,只是多了一项先验分布,它体现了贝叶斯认为参数也是随机变量的观点,在实际运算中通常通过超参数给出先验分布。

从以上可以看出,一方面,极大似然估计和最大后验概率都是参数的点估计。在频率学派中,参数固定了,预测值也就固定了。最大后验概率是贝叶斯学派的一种近似手段,因为完全贝叶斯估计不一定可行。另一方面,最大后验概率可以看作是对先验和MLE的一种折衷,如果数据量足够大,最大后验概率和最大似然估计趋向于一致,如果数据为0,最大后验仅由先验决定。

  • 2
    点赞
  • 26
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值