最大似然估计概念及计算

最新推荐文章于 2023-08-14 12:00:43 发布

ElenaQ

最新推荐文章于 2023-08-14 12:00:43 发布

阅读量1.5k

点赞数 1

分类专栏：算法文章标签：概率论机器学习算法

原文链接：https://towardsdatascience.com/probability-concepts-explained-maximum-likelihood-estimation-c7b4342fdbb1#:~:text=Maximum%20likelihood%20estimation%20is%20a,data%20that%20were%20actually%20observed.

版权

算法专栏收录该内容

2 篇文章 0 订阅

订阅专栏

最大似然估计（MLE）是机器学习中的一种重要概念，用于根据已有数据估计模型参数。本文介绍了MLE的基本思想，通过一个老师批改作业时间的例子，直观解释了如何选择合适的概率模型，并探讨了在高斯分布中计算MLE的过程，包括计算log likelihood的原因。通过计算，得出在给定数据下的最优均值μ约为9.8333。

摘要由CSDN通过智能技术生成

概念

最大似然估计 Maximum likelihood estimation, 是一个在已知的数据集 $x$ 情况下，根据现有参数去预测数据分布 $\theta$ 的问题，与机器学习关系密切，同时需要很多概率知识。

什么是参数

在机器学习中，我们经常会需要用一个模型去描述观察到的数据，比如用线性模型去预测公司在广告支出和回报之间的关系，每个模型都有自己的参数，用来定义这个模型看起来是怎样的

对于线性模型来说，可以假设 $y = m x + c$ , x是广告支出， y是回报，m和c是参数

直觉理解的MLE

MLE是一种根据已经有的数据预估可能的模型的方式，首先需要选一个合适的模型，看到下面这张图，表示一个老师批改一份作业的时间，你觉得用什么概率模型来表示比较合适？（指数分布，线性分布，高斯分布？）
引用：https://towardsdatascience.com/probability-concepts-explained-maximum-likelihood-estimation-c7b4342fdbb1#:~:text=Maximum%20likelihood%20estimation%20is%20a,data%20that%20were%20actually%20observed.
通常模型的选择来自经验，如果比较熟悉各个分布会觉得这里用高斯比较合适，因为点都集中在一个特定点周围，而且可以用均值和方差表示，但我们这里不讨论先验概率选择的问题，先假定是高斯，下面这张图片显示在不同的均值和方差下，高斯的不同形态，对高斯积分后面积为1

在这里插入图片描述
在这里，真实分布为蓝色，高斯参数为 $f_1 \sim \mathcal{N}(10,2.25)$

计算MLE

在这里我们假设所有的点都是相互独立的，这样计算概率分布比较方便，不需要考虑条件概率。这样一个总的事件发生的概率等于所有点的概率的乘积。求MLE就是求这个函数中最大分布的值
对于一个概率分布中单独的数据点 $x$ 来说，它被这个高斯分布生成的概率为
$p(x;\mu,\sigma) = \frac{1}{\sigma} \sqrt{2\pi} e^{-\frac{(x-\mu)^2}{2\sigma^2}}$
式子中的分号说明x是在知道 $\mu$ 和 $\sigma$ 之后出现的，也就是x为未知变量，不会和条件概率混淆。
在我们的例子中，计算出三个点的值
$p(9,9.5,11;\mu,\sigma) = \frac{1}{\sigma} \sqrt{2\pi} e^{-\frac{(9-\mu)^2}{2\sigma^2}} \cdot \frac{1}{\sigma} \sqrt{2\pi} e^{-\frac{(9.5-\mu)^2}{2\sigma^2}} \frac{1}{\sigma} \cdot \sqrt{2\pi} e^{-\frac{(11-\mu)^2}{2\sigma^2}}$

直接画出来上面这个式子的条件分布是比较困难的，但我们知道这里一定存在一个最大值，因为所有的子项都是高斯分布的乘积，所以我们选择使用微积分来解决遇到的求最大值的问题，我们只需要求出它的一次微分=0的时候的值，就可以知道在什么时候这个函数取到最大值，这里不展开算因为直接计算较为困难，实际中更多算它的log likelihood

计算 log likelihood

因为log函数为单调递增函数，所以当我们计算一个函数的最大值的时候，和计算它求log后的最大值是一样的，log不会改变原有函数的特性，同时计算起来更简单。
将上面的式子用ln计算可变为

$In(p(9,9.5,11;\mu,\sigma) )= In(\frac{1}{\sigma} \sqrt{2\pi} e^{-\frac{(9-\mu)^2}{2\sigma^2}} \cdot \frac{1}{\sigma} \sqrt{2\pi} e^{-\frac{(9.5-\mu)^2}{2\sigma^2}} \frac{1}{\sigma} \cdot \sqrt{2\pi} e^{-\frac{(11-\mu)^2}{2\sigma^2}})$

可以被化简为：
$In(p(9,9.5,11;\mu,\sigma) )= -3In(\sigma) - \frac{3}{2}In(2\pi) - \frac{1}{2\sigma^2}[(9-\mu)^2 + (9.5 - \mu)^2 + (11-\mu)^2]$
对这个式子求偏导，我们可以得到
$\frac{\partial In(P(x;\mu,\sigma))}{\partial \mu} = \frac{1}{\sigma}[9+9.5+11-3\mu]$
这样设这个式子为0，我们可以求出 $\mu = 9.8333$