最大似然估计概念及计算

最大似然估计(MLE)是机器学习中的一种重要概念,用于根据已有数据估计模型参数。本文介绍了MLE的基本思想,通过一个老师批改作业时间的例子,直观解释了如何选择合适的概率模型,并探讨了在高斯分布中计算MLE的过程,包括计算log likelihood的原因。通过计算,得出在给定数据下的最优均值μ约为9.8333。
摘要由CSDN通过智能技术生成

概念

最大似然估计 Maximum likelihood estimation, 是一个在已知的数据集 x x x情况下,根据现有参数去预测数据分布 θ \theta θ的问题,与机器学习关系密切,同时需要很多概率知识。

什么是参数

在机器学习中,我们经常会需要用一个模型去描述观察到的数据,比如用线性模型去预测公司在广告支出和回报之间的关系,每个模型都有自己的参数,用来定义这个模型看起来是怎样的

对于线性模型来说,可以假设 y = m x + c y = mx + c y=mx+c, x是广告支出, y是回报,m和c是参数

直觉理解的MLE

MLE是一种根据已经有的数据预估可能的模型的方式,首先需要选一个合适的模型,看到下面这张图,表示一个老师批改一份作业的时间,你觉得用什么概率模型来表示比较合适?(指数分布,线性分布,高斯分布?)
引用:https://towardsdatascience.com/probability-concepts-explained-maximum-likelihood-estimation-c7b4342fdbb1#:~:text=Maximum%20likelihood%20estimation%20is%20a,data%20that%20were%20actually%20observed.
通常模型的选择来自经验,如果比较熟悉各个分布会觉得这里用高斯比较合适,因为点都集中在一个特定点周围,而且可以用均值和方差表示,但我们这里不讨论先验概率选择的问题,先假定是高斯,下面这张图片显示在不同的均值和方差下,高斯的不同形态,对高斯积分后面积为1

在这里插入图片描述
在这里,真实分布为蓝色,高斯参数为 f 1 ∼ N ( 10 , 2.25 ) f_1 \sim \mathcal{N}(10,2.25) f1N(10,2.25)

计算MLE

在这里我们假设所有的点都是相互独立的,这样计算概率分布比较方便,不需要考虑条件概率。这样一个总的事件发生的概率等于所有点的概率的乘积。求MLE就是求这个函数中最大分布的值
对于一个概率分布中单独的数据点 x x x来说,它被这个高斯分布生成的概率为
p ( x ; μ , σ ) = 1 σ 2 π e − ( x − μ ) 2 2 σ 2 p(x;\mu,\sigma) = \frac{1}{\sigma} \sqrt{2\pi} e^{-\frac{(x-\mu)^2}{2\sigma^2}} p(x;μ,σ)=σ12π e2σ2(xμ)2
式子中的分号说明x是在知道 μ \mu μ σ \sigma σ之后出现的,也就是x为未知变量,不会和条件概率混淆。
在我们的例子中,计算出三个点的值
p ( 9 , 9.5 , 11 ; μ , σ ) = 1 σ 2 π e − ( 9 − μ ) 2 2 σ 2 ⋅ 1 σ 2 π e − ( 9.5 − μ ) 2 2 σ 2 1 σ ⋅ 2 π e − ( 11 − μ ) 2 2 σ 2 p(9,9.5,11;\mu,\sigma) = \frac{1}{\sigma} \sqrt{2\pi} e^{-\frac{(9-\mu)^2}{2\sigma^2}} \cdot \frac{1}{\sigma} \sqrt{2\pi} e^{-\frac{(9.5-\mu)^2}{2\sigma^2}} \frac{1}{\sigma} \cdot \sqrt{2\pi} e^{-\frac{(11-\mu)^2}{2\sigma^2}} p(9,9.5,11;μ,σ)=σ12π e2σ2(9μ)2σ12π e2σ2(9.5μ)2σ12π e2σ2(11μ)2

直接画出来上面这个式子的条件分布是比较困难的,但我们知道这里一定存在一个最大值,因为所有的子项都是高斯分布的乘积,所以我们选择使用微积分来解决遇到的求最大值的问题,我们只需要求出它的一次微分=0的时候的值,就可以知道在什么时候这个函数取到最大值,这里不展开算因为直接计算较为困难,实际中更多算它的log likelihood

计算 log likelihood

因为log函数为单调递增函数,所以当我们计算一个函数的最大值的时候,和计算它求log后的最大值是一样的,log不会改变原有函数的特性,同时计算起来更简单。
将上面的式子用ln计算可变为

I n ( p ( 9 , 9.5 , 11 ; μ , σ ) ) = I n ( 1 σ 2 π e − ( 9 − μ ) 2 2 σ 2 ⋅ 1 σ 2 π e − ( 9.5 − μ ) 2 2 σ 2 1 σ ⋅ 2 π e − ( 11 − μ ) 2 2 σ 2 ) In(p(9,9.5,11;\mu,\sigma) )= In(\frac{1}{\sigma} \sqrt{2\pi} e^{-\frac{(9-\mu)^2}{2\sigma^2}} \cdot \frac{1}{\sigma} \sqrt{2\pi} e^{-\frac{(9.5-\mu)^2}{2\sigma^2}} \frac{1}{\sigma} \cdot \sqrt{2\pi} e^{-\frac{(11-\mu)^2}{2\sigma^2}}) In(p(9,9.5,11;μ,σ))=In(σ12π e2σ2(9μ)2σ12π e2σ2(9.5μ)2σ12π e2σ2(11μ)2)

可以被化简为:
I n ( p ( 9 , 9.5 , 11 ; μ , σ ) ) = − 3 I n ( σ ) − 3 2 I n ( 2 π ) − 1 2 σ 2 [ ( 9 − μ ) 2 + ( 9.5 − μ ) 2 + ( 11 − μ ) 2 ] In(p(9,9.5,11;\mu,\sigma) )= -3In(\sigma) - \frac{3}{2}In(2\pi) - \frac{1}{2\sigma^2}[(9-\mu)^2 + (9.5 - \mu)^2 + (11-\mu)^2] In(p(9,9.5,11;μ,σ))=3In(σ)23In(2π)2σ21[(9μ)2+(9.5μ)2+(11μ)2]
对这个式子求偏导,我们可以得到
∂ I n ( P ( x ; μ , σ ) ) ∂ μ = 1 σ [ 9 + 9.5 + 11 − 3 μ ] \frac{\partial In(P(x;\mu,\sigma))}{\partial \mu} = \frac{1}{\sigma}[9+9.5+11-3\mu] μIn(P(x;μ,σ))=σ1[9+9.5+113μ]
这样设这个式子为0,我们可以求出 μ = 9.8333 \mu = 9.8333 μ=9.8333

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值