【一文掌握】最大似然估计、最大后验估计、贝叶斯估计、最大熵估计、朴素贝叶斯分类器

一、概率密度函数估计

在实际问题中,一个事件的分布函数或概率密度函数是未知的,我们想要求得它的概率分布,就要明确两个点:

  1. 概率密度的类型(即分布情况,如 高斯分布、K方分布…)
  2. 估计参数(如高斯分布,它的估计参数就是μ,σ)

在这里,我们只讨论在已知概率密度的类型的前提下,如何估计参数,这也是最大似然估计、最大后验估计、贝叶斯估计等方法能够解决的问题。

我们先来介绍一些基本概念。
设随机变量x的概率密度函数为f(x;θ),其中θ代表一组参数,即参数向量(如高斯分布中,θ={α,μ})。而这一组参数又θ有很多的取值,即θΘ,称Θ={θ1θ2θ3…}为参数空间。
这样的话,根据不同θ的取值,我们有一族概率函数{f(x;θ):θΘ}可以描述x的概率密度。我们现在的任务是,在这样一族概率函数中,选定一个最合适的分布,来描述母体。因为这里只有θ需要确定,所以我们只要估计出参数θ,就能描述整个分布了。

那么,如何确定θ呢?

我们假设从整个母体中取出一组观测值X={x1,x2,x3,…},然后利用这些取样来构造一个估计量θ^,即 θ^=u(x1,x2,x3,…), 则这个 θ^ 就是θ的一个 点估计值。也就是说,我们要估计θ的值,就要先构造一个估计函数 θ^=u(x1,x2,x3,…),然后将观测值X={x1,x2,x3,…}带入估计函数中,算出估计值 θ^,然后使用偏差比较小估计值 θ^ 来作为真值θ
我们今天要讲的这些估计方法,都是为了求出偏差最小的参数 θ^

二、最大似然估计(MLP)

首先,我们有一个要求得的概率密度函数p(x),现在,我们先从母体中取出N个观测值x1,x2,x3…xN,这些观测值构成一个观测向量X={x1,x2,x3…xN}。于是我们有联合概率密度函数:
在这里插入图片描述

因为我们已知p(x)的分布情况,现在再假定这个分布的参数也已经知道,记作θ,那么假设不同样本间相互独立,我们有:
在这里插入图片描述
其中,p(X|θ)是条件概率,它的意思是,在假定θ成立的前提下,X的概率。
这是一个关于θ的函数,也就是概率论课本上的似然函数,面对不同的θ取值,这个函数的值也不同,但是那个问题还没解决,如何找到最合适的θ值呢?
先别急,我们来举个例子,假设一个箱子里有100个球,90个红色,10个绿色,那么我随便从里面拿出一个球,这个球的颜色应该是?
当然是红色!至少,它更应该是红色。这其实就是最大似然的思想,最大似然估计其实更应该叫最大可能性估计,我们从整个母体中进行抽样,被我们抽出来的样本x,它最可能就是概率密度函数最大时的x,即p(X)应该就是最大的。
到这时,我们终于摆脱了原来那个如何确定θ的问题,将它转化为了:只要求得最大的p(X|θ),我们就求得了θ
即:
在这里插入图片描述
为了得到最大值,我们可以令p(X|θ)的导数(梯度)为零,因为这个概率密度函数的最大值一般出现在导数为零的地方,即:
在这里插入图片描述
或者有时为了简化计算,可以先取对数,再令导数为零(对数函数是单调的,取对数不影响极值点)
在这里插入图片描述
这样可以把连乘转变成求和。

最大似然函数还有以下特性

  1. 最大似然估计是渐进无偏的
    在这里插入图片描述
    对每个不同的样本集X都会得到一个估计值θ^,当N->无穷时,均值就会等于真实的参数值。这也很好理解,样本越多,估计和真实值越接近。

  2. 最大似然估计是渐进一致的
    在这里插入图片描述
    其中ε任意小,也就是说,当N足够大,估计结果**θ^**可以任意接近真实值。

  3. 最大似然估计是渐进有效的
    这里有一个东西叫Cramer-Rao界限,它的意思是:任何无偏估计的方差都至少大于一个界限:Cramer-Rao下界(Fisher信息的倒数)。而一个达到了下界的无偏估计被称为完全高效的。

  4. 当N->无穷时,最大似然估计的概率密度函数接近均值为θ的高斯分布
    这是中心极限定理的结果:无论X1,X2,X3…XN服从什么分布,只要它们独立同分布,当N足够大时,ΣX就近似服从以它的均值为均值,方差为方差的高斯分布。在这里,N趋于无穷时,即我们的样本集X取了无穷个,这样得出的分布自然是高斯分布。

三、最大后验概率估计

最大似然估计MLP通过最大化似然函数从而找出参数θ ,主要思想在于:找出能最大概率生成这批数据的参数。但是这种做法完全依赖于数据本身,当数据量大的时候,最大似然估计往往能很好的估计出参数;但是当数据量小的时候,估计出来的结果并不会很好。就例如丢一个硬币,当我们投掷了5次,结果都为正面,如果使用极大似然估计,就会得出投出正面的概率为100%!这显然是不符常理的。
于是我们想要加入一个人为决定的常识:硬币投掷为正面的概率应该是50%来辅助我们计算概率,从而摆脱对数据的绝对依赖。
那么,如何把这个常识加入到公式中呢?这就要用到大名鼎鼎的贝叶斯公式了:
在这里插入图片描述
这个公式看起来很简单,但它表述了一个很深刻的问题,甚至上升到了哲学高度。可以看这个清华大学张颢老师模式识别课程的视频
这里我们简单应用一下,把B当作用来参数估计的随机变量θ,把A当作观测向量X,带入贝叶斯公式中。(顺便说一句,我们在最大似然估计中的θ是一组参数值,而最大后验概率估计中的θ是一个随机变量) 我们有:
在这里插入图片描述
这个公式中

  • P(θ)称作先验概率,是观测到数据X之前就已经有的概率,即我们的常识
  • P(θ|X)称作后验概率,是在结合数据向量X后,参数θ的概率(之前说了,这里θ是一个随机变量)
  • P(X|θ)是似然函数,即上一节中的似然函数,也就是假定θ成立时,观察到数据X的概率
  • P(X)不含变量,是一个常数,所以不用关心。

于是,我们通过贝叶斯公式,将先验概率与似然函数结合起来,得到了后验概率。
之前已经说过,最大似然函数P(X|θ)取最大时,参数θ的估计是最好的,而先验概率P(θ)是常识给定的,所以,上式右边P(X|θ)P(θ)最大时,参数θ的估计就应该是最好的。即后验概率P(θ|X)最大时,参数θ的估计是最好的。即:
在这里插入图片描述
这就是最大后验估计。
与似然函数相同的估计方法,想寻找P(θ|X)的最大值点,就要先求梯度,寻找梯度为零的点。即:
在这里插入图片描述
从中求得θ^

从公式中也可以看出,最大后验估计与最大似然估计只差了一个先验概率P(θ)。

  • 如果P(θ)是均匀分布,则P(θ)也变成了一个常数,此时的最大后验估计就和最大似然估计完全一样了。

四、贝叶斯估计(贝叶斯推论)

无论是MLP还是MAP,目的均在于找到最优的参数θ,但是贝叶斯估计的目的在于找到后验分布,并利用后验分布来描述母体分布。
且听我慢慢道来。
我们以前一直是希望找到一个能够描述母体的概率分布函数,现在我把这个目标换一下:预测未来可能出现的数据样本值x的概率p(x)。
做参数估计的最终目的都是在于借助估计的结果做下一次的预测,现在我们直接去求这个预测:p(x|X)(表示:在已知观察成立的条件下,下一次观测x的概率)。
很明显,未来可能出现的数据样本值 x 条件独立于之前的观测值 X(每次取样都是独立事件),并且,我们令估计参数是和最大后验分布里一样的随机变量θ,p(θ)是先验信息,与X无关系,所以有:
在这里插入图片描述
其中,P(θ|X)可以使用贝叶斯公式:
在这里插入图片描述
因为此时要求到p(x|X)具体的分布,所以p(X)不能忽略,我们把它再次展开:
在这里插入图片描述
而P(X|θ)正是最开始讲到的最大似然函数:
在这里插入图片描述
显然,想要求得p(x|X),我们不仅要进行连乘,还要求两次积分,所以经过贝叶斯估计的准确性最好,但往往难以计算。

贝叶斯估计还有以下特性:

  • 如果P(θ|X)在某一点 θ^ 形成尖锐的凸峰,此时p(x|X)就约等于P(x|θ^) (类似冲激函数的积分),即预测概率P(x)由 θ^ 决定,参数估计大致等于最大后验估计。
    解释:P(θ|X)是后验概率,则使得后验概率最大的估计值 θ^ 即为最大后验估计产生的
    在这里插入图片描述
    所以此时参数估计大致等于最大后验估计。
  • 设p(x|θ)是一个均值未知的高斯函数N~(μ,σ^2), 并进一步假定先验概率P(θ)服从高斯分布N~(μ0,σ0^2)。(这里p(x|θ)的意思是:在参数θ成立的条件下,每次抽样x的概率分布)
    首先,由p(x|θ)可以得到似然函数P(X|θ),即:(别人的图片我拿来用了,把μ换成θ就行,实在是懒得敲了)
    在这里插入图片描述
    则此时,先验概率P(θ)与似然函数P(X|θ)都已知,由贝叶斯公式:
    在这里插入图片描述
    由于p(X)是常数,则公式也可写成:
    在这里插入图片描述
    则后验概率P(θ|X)服从高斯分布,且通过高斯分布相乘的计算公式,有:
    在这里插入图片描述
    其中,
    在这里插入图片描述
    可以看到,随着样本数量N的增大,uN不断远离μ0,然后靠近样本的均值。也就是说当N足够大时,后验概率P(θ|X)将基本与先验概率P(θ)无关,而完全取决于似然函数。而此时P(θ|X)将在X均值附近产生尖锐的凸峰,所以p(x|X)就约等于P(x|θML),即预测概率P(x)由 |θML 决定,参数估计大致等于最大似然估计。
    其实,当样本数目足够多时,最大后验估计就近似变成了最大似然估计。

这也可以看出,当样本数目足够多时,上述三种估计就趋同于了同一个估计值。

五、最大熵估计

知道信息的熵的公式吗,一般出现在通信原理等课程中
在这里插入图片描述
这是离散信息的熵,把它转变为连续的,即:
在这里插入图片描述
熵是随机变量不确定性的度量,不确定性越大,熵值越大;若随机变量退化成定值,熵为0。
如果没有外界干扰,随机变量总是趋向于无序,在经过足够时间的稳定演化,它应该能够达到的最大程度的熵。
最大熵估计正是承认这一点,原则上承认已知事物(知识),且对未知事物不做任何假设,没有任何偏见。即我们需要调整未知参数θ(约束条件),从而间接调整p(x),使得熵为最大值。这样调整出来的参数即为最佳参数。

六、朴素贝叶斯分类器

前面我们一直在想办法估计概率密度函数p(x),我们思维习惯上一直把它当作是一维概率密度函数,但如果x变成了一个多维向量x={x1,x2,x3…xl},那么问题就复杂了起来。我们当然可以使用之前的估计方法,但是,准确的估计需要有足够大的样本,为了得到比较准确的估计,我们的样本数量将会随着维度的增加呈指数型增长。(想描述直线只需要5个点,想描述面却需要25个点,多一个维度,整体的信息就多了一个指数集。)
如果我们直接求最大似然估计,则
在这里插入图片描述
为了解决这个问题,我们假定,每个维度都是互相独立的,即x1,x2,x3…xl相互独立。
所以有:
在这里插入图片描述
即参数估计时,只需要取
在这里插入图片描述
这样虽然做了一个可能错误的假设,但却很好用。

参考资料:

  1. ⾼斯分布的贝叶斯推断
  2. 模式识别与机器学习(二):常用的概率分布(共轭分布等)
  3. 贝叶斯公式和共轭分布
  4. 最大似然估计、最大后验估计、贝叶斯估计的对比
  5. 最大似然估计 (MLE) 最大后验概率(MAP)
  6. 贝叶斯估计
  7. 《贝叶斯引论》(Introduction to Bayesian Networks) 第7.3节
  8. 贝叶斯估计、最大似然估计、最大后验概率估计
  9. 贝叶斯估计、最大似然估计、最大后验概率估计
  10. 参数估计:最大似然估计(MLE),最大后验估计(MAP),贝叶斯估计,经验贝叶斯(Empirical Bayes)与全贝叶斯(Full Bayes)
  11. 什么是最大似然估计、最大后验估计以及贝叶斯参数估计
  12. 详解最大似然估计(MLE)、最大后验概率估计(MAP),以及贝叶斯公式的理解
  13. 机器学习中的MLE、MAP、贝叶斯估计
  14. 极大似然估计与最大后验概率估计
  15. 基于贝叶斯估计与分布的关联分析方法研究
  16. 机器学习(一) 贝叶斯法则与概念学习
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值