最大似然估计

最大似然估计与贝叶斯推理

参考:深入浅出最大似然估计(Maximum Likelihood Estimation)

从最大似然估计开始,你需要打下的机器学习基石

一文读懂贝叶斯推理问题:MCMC方法和变分推断

例子1:抽球

举个通俗的例子:假设一个袋子装有白球与红球,比例未知,现在抽取10次(每次抽完都放回,保证事件独立性),假设抽到了7次白球和3次红球,在此数据样本条件下,可以采用最大似然估计法求解袋子中白球的比例(最大似然估计是一种“模型已定,参数未知”的方法)。当然,这种数据情况下很明显,白球的比例是70%,但如何通过理论的方法得到这个答案呢?一些复杂的条件下,是很难通过直观的方式获得答案的,这时候理论分析就尤为重要了,这也是学者们为何要提出最大似然估计的原因。我们可以定义从袋子中抽取白球和红球的概率如下:

img

x1为第一次采样,x2为第二次采样,f为模型, theta为模型参数

其中theta是未知的,因此,我们定义似然L为:

img

L为似然的符号

两边取ln,取ln是为了将右边的乘号变为加号,方便求导。

img

两边取ln的结果,左边的通常称之为对数似然。

img

这是平均对数似然

最大似然估计的过程,就是找一个合适的theta,使得平均对数似然的值为最大。因此,可以得到以下公式:

img

最大似然估计的公式

这里讨论的是2次采样的情况,当然也可以拓展到多次采样的情况:

img

最大似然估计的公式(n次采样)

我们定义M为模型(也就是之前公式中的f),表示抽到白球的概率为theta,而抽到红球的概率为(1-theta),因此10次抽取抽到白球7次的概率可以表示为:

img

10次抽取抽到白球7次的概率

将其描述为平均似然可得:

img

10次抽取抽到白球7次的平均对数似然,抽球的情况比较简单,可以直接用平均似然来求解

那么最大似然就是找到一个合适的theta,获得最大的平均似然。因此我们可以对平均似然的公式对theta求导,并另导数为0。

img

求导过程

由此可得,当抽取白球的概率为0.7时,最可能产生10次抽取抽到白球7次的事件。

似然函数(也称作似然),是一个关于统计模型参数的函数.也就是这个函数中自变量是统计模型的参数 θ \theta θ。对于观测结构x,在参数集合 θ \theta θ上的似然,就是在给定这些参数数值的基础上,观察到的结果的概率 L ( θ ) = P ( x ∣ θ ) L(\theta)=P(x|\theta) L(θ)=P(xθ)。也就是说,似然是关于参数的函数,在参数给定的条件下,对于观察到的x的条件分布。会发现,“似然”也是一种“概率”。不同点在于观测值x与参数 θ \theta θ的不同角色。概率是用于描述一个函数,这个函数在给定参数值的情况下,关于观察值的函数,例如,已知一个硬币是均匀的,那么连续10次正面朝上的概率。

而似然是用于给定一个观察值时,关于描述参数的函数。例如,如果一个硬币10次抛落中均正面朝上,那么硬币是均匀的的概率是多少。

例子2:正态分布

假如有一组采样值(x1,…,xn),我们知道其服从正态分布,且标准差已知。当这个正态分布的期望为多少时,产生这个采样数据的概率为最大?

这个例子中正态分布就是模型M,而期望就是前文提到的theta。

img

似然

img

正态分布的公式,当第一参数(期望)为0,第二参数(方差)为1时,分布为标准正态分布

img

似然值

img

对上式求导可得

综上所述,可得求解最大似然估计的一般过程为:

\1. 写出似然函数;

\2. 如果无法直接求导的话,对似然函数取对数;

\3. 求导数 ;

\4. 求解模型中参数的最优值。

贝叶斯推理

模型形式的贝叶斯定理将使用不同的数学符号。

我们将用Θ取代事件 A。Θ是我们感兴趣的事件,它代表了参数的集合。因此如果要估计高斯分布的参数值,那么Θ代表了平均值μ和标准差σ,用数学形式表示为Θ = {μ, σ}。

我们用 data 或 y={y1, y2, …, yn} 取代事件 B,它代表了观察数据的集合。

img

其中 P(Θ) 是先验分布,即关于变量data的概率分布,是在获得某些信息或依据前,对data的不确定性所进行的猜测。等式左边的 P(Θ|data) 称为后验分布,它代表利用观察数据计算了等式右边之后的参数值分布。而 P(data| Θ) 和似然度分布类似。 P ( d a t a ) P(data) P(data)相当于归一化参数, P ( d a t a ) = Σ i P ( d a t a ∣ Θ i ) P ( Θ i ) P(data)=\Sigma_iP(data|\Theta_i)P(\Theta_i) P(data)=ΣiP(dataΘi)P(Θi)

因此我们可以使用 P(data|Θ) 更新先验信度以计算参数的后验分布。

*等等,为什么忽略了 P(data)?*

因为我们只对参数的分布感兴趣,而 P(data) 对此并没有任何参考价值。而 P(data) 的真正重要性在于它是一个归一化常数,它确保了计算得到的后验分布的总和等于 1。

在某些情况下,我们并不关心归一化,因此可以将贝叶斯定理写成这样的形式:

img

其中 ∝ 表示符号左边正比于符号右边的表达式。

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值