干货 | 通俗易懂的极大似然估计

源于频率主义学派的极大似然估计(Maximum Likelihood Estimation,简称MLE),是根据数据采样来估计概率分布参数的经典方法,在机器学习的对数几率回归、贝叶斯分类器等中有广泛的应用。

1 极大似然估计法

设总体的概率密度函数(或分布律)为 f ( y , w 1 , w 2 , … , w k ) , y 1 , y 2 , … , y m f\left(y, w_{1}, w_{2}, \ldots, w_{k}\right), y_{1}, y_{2}, \ldots, y_{m} f(y,w1,w2,,wk),y1,y2,,ym为从该总体中抽出来的样本。英文 y 1 , y 2 , … , y m y_{1}, y_{2}, \dots, y_{m} y1,y2,,ym相互独立同分布,于是,它们的联合概率密度函数(或联合概率)为
L ( y 1 , y 2 , … , y m ; w 1 , w 2 , … , w k ) = ∏ i = 1 m f ( y i , w 1 , w 2 , … , w k ) L\left(y_{1}, y_{2}, \ldots, y_{m} ; w_{1}, w_{2}, \ldots, w_{k}\right)=\prod_{i=1}^{m} f\left(y_{i}, w_{1}, w_{2}, \ldots, w_{k}\right) L(y1,y2,,ym;w1,w2,,wk)=i=1mf(yi,w1,w2,,wk)
其中, w 1 , w 2 , … , w k w_{1}, w_{2}, \ldots, w_{k} w1,w2,,wk被看作固定但是未知的参数。当我们已经观测到一组样本观测值 y 1 , y 2 , … , y m y_{1}, y_{2}, \dots, y_{m} y1,y2,,ym时,要去估计未知参数,一种直观的想法就是,哪一组参数值使得现在的样本观测值出现的概率最大,哪一组参数可能就是真正的参数,我们就用它作为参数的估计值,这就是所谓的极大似然估计。

2 对数似然函数

通常记 L ( y 1 , y 2 , … , y m ; w 1 , w 2 , … , w k ) = L ( w ) L\left(y_{1}, y_{2}, \dots, y_{m} ; w_{1}, w_{2}, \dots, w_{k}\right)=L(w) L(y1,y2,,ym;w1,w2,,wk)=L(w),并称其为似然函数。于是求 w w w的极大似然估计就归结为求 L ( w ) L(w) L(w)的最大值点。由于连乘容易导致下溢,通常使用对数似然函数(log-likelihood)。
ln ⁡ L ( w ) = ln ⁡ ( ∏ i = 1 m f ( y i , w 1 , w 2 , … , w k ) ) = ∑ i = 1 m ln ⁡ f ( y i , w 1 , w 2 , … , w k ) \ln L(\boldsymbol{w})=\ln \left(\prod_{i=1}^{m} f\left(y_{i}, w_{1}, w_{2}, \ldots, w_{k}\right)\right)=\sum_{i=1}^{m} \ln f\left(y_{i}, w_{1}, w_{2}, \ldots, w_{k}\right) lnL(w)=ln(i=1mf(yi,w1,w2,,wk))=i=1mlnf(yi,w1,w2,,wk)
由于对数似然函数是单调递增函数,其与 L ( w ) L(\boldsymbol{w}) L(w)有相同的最大值点。则求解 L ( w ) L(\boldsymbol{w}) L(w)最大值点就转化为求 ln ⁡ L ( w ) \ln L(\boldsymbol{w}) lnL(w)的最大值点,对于凸函数而言就很简单了。

  • 2
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值