MLE, MAP and LSM

最新推荐文章于 2024-04-16 09:30:16 发布

bryant_meng

最新推荐文章于 2024-04-16 09:30:16 发布

阅读量571

点赞数 1

分类专栏： Machine Learning 文章标签：最大似然估计最小二乘法最大后验概率估计

本文链接：https://blog.csdn.net/bryant_meng/article/details/81115900

版权

Machine Learning 专栏收录该内容

24 篇文章 4 订阅

订阅专栏

文章目录

1 最大似然估计法
2 最大似然估计和最小二乘法的联系
3 最大后验概率估计
【补充】

最小二乘法（Least Squares Method）和最大似然估计（Maximum Likelihood Estimate）有内在的联系吗？本博客阐述的是二者之间的千丝万缕！

对于最小二乘，当从模型总体随机抽取 $n$ 组样本观测值后，最合理的参数估计量应该使得模型能最好的拟合样本数据！

最大似然估计，当从模型总体随机抽取 $n$ 组样本观测值后，最合理的参数估计量应该使得从模型中抽取该 $n$ 组样本观测值的概率最大！

简单来说就是这样一个假定：我们所观察到的事件/样本，都是大概率事件，小概率事件我们“观察不到” （参考如何简单形象的解释最大拟然估计？）

1 最大似然估计法

设 $X_1,X_2,...,X_n$ 是来自总体 $X$ 的样本， $x_1,x_2,...,x_n$ 是样本值， $\theta$ 是待估参数.

1.1 似然函数

定义：

对于离散型总体 $X$ ，设其概率分布为 $P\{X=a_i\}=p(a_i,\theta),i=1,2,...$ ，称函数
$L(\theta) = L(X_1,X_2,...,X_n; \theta) = \prod_{i=1}^{n}p(X_i;\theta )$
为参数 $\theta$ 的似然函数。

对于连续型总体 $X$ ，概率密度为 $f(x;\theta)$ ，则称函数
$L(\theta) = L(X_1,X_2,...,X_n; \theta) = \prod_{i=1}^{n}f(X_i;\theta )$
为参数 $\theta$ 的似然函数。

1.2 最大似然估计

定义：对于给定的样本值 $x_1,x_2,...,x_n)$ ，使似然函数 $L(x_1,x_2,...,x_n; \theta)$ 达到最大值的参数值 $\hat{\theta} = \hat{\theta}(x_1,x_2,...,x_n)$ 称为未知参数 $\theta$ 的最大似然估计值。

相应的使似然函数 $L(X_1,X_2,...,X_n; \theta)$ 达到最大值的参数值 $\hat{\theta} = \hat{\theta}(X_1,X_2,...,X_n)$ 称为未知参数 $\theta$ 的最大似然估计量。

一般统称为 $\theta$ 的最大似然估计，称这种估计法为最大似然估计法

1.3 求解步骤

1）求似然函数
2）取对数（把乘法变成加法）
3）求最大值（一般令导数为0，区间内唯一驻点为最值）

1.4 Demo（高斯函数的均值和方差）

高斯分布 $\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}}$

对于总体 $x_1,x_2,...,x_n$ ，

1）似然函数
$L(x_1,x_2,...,x_n;\mu,\sigma) = \frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x_1-\mu)^2}{2\sigma^2}}\cdot\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x_2-\mu)^2}{2\sigma^2}}...\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x_n-\mu)^2}{2\sigma^2}}$

2）对数似然函数
$\begin{aligned} lnL(x_1,x_2,...,x_n;\mu,\sigma) &= ln(\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x_1-\mu)^2}{2\sigma^2}})+ln(\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x_2-\mu)^2}{2\sigma^2}})+...+ln(\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x_n-\mu)^2}{2\sigma^2}}) \\ &= -nln(\sqrt{2\pi}) - nln(\sigma) - \sum_{i=1}^{n}\frac{(x_i-\mu)^2}{2\sigma^2} \end{aligned}$

3）求最大值

对未知参数 $\mu$ 求偏导
$\frac{\partial lnL(x_1,x_2,...,x_n;\mu,\sigma)}{\partial \mu} = -\sum_{i=1}^{n}\frac{x_i-\mu}{\sigma^2}$

令偏导为零

$\begin{aligned} &\sum_{i=1}^{n}(x_i-\mu) = 0 \\ \Rightarrow & \sum_{i=1}^{n}x_i = n\mu \\ \Rightarrow & \hat{\mu} = \frac{1}{n}\sum_{i=1}^{n}x_i \end{aligned}$

对未知参数 $\sigma$ 求偏导

$\frac{\partial lnL(x_1,x_2,...,x_n;\mu,\sigma)}{\partial \sigma} = -\frac{n}{\sigma} + \sum_{i=1}^{n}\frac{(x_i-\mu)^2}{\sigma^3} = -\frac{n}{\sigma} + \frac{1}{\sigma^3}\sum_{i=1}^{n}(x_i-\mu)^2$

令偏导为零
$\begin{aligned} & -\frac{n}{\sigma} + \frac{1}{\sigma^3}\sum_{i=1}^{n}(x_i-\mu)^2 = 0 \\ \Rightarrow & \hat{\sigma}^2 = \frac{1}{n}\sum_{i=1}^{n}(x_i-\mu)^2 \end{aligned}$

综上所述，用最大似然估计法求出来的高斯分布的总体均值和方差如下：

$\mu = \frac{1}{n}\sum_{i=1}^{n}x_i$
$\sigma ^2= \frac{1}{n}\sum_{i=1}^{n}(x_i-\mu)^2$

和高斯分布的总体均值和方差一致！

接下来我们看看样本均值和方差的定义：

设 $X_1,X_2,...,X_n$ 是来自总体 $X$ 的样本，则称

样本均值

$\bar{X} = \frac{1}{n}\sum_{i=1}^{n}X_i$

样本方差

$S^2 = \frac{1}{n-1}\sum_{i=1}^{n}(X_i-\bar{X})^2$

样本数字特征的性质

1）如果总体 $X$ 具有数学期望 $\mu$ ，则

$E(\bar{X}) = E(X) = \mu$

推导
$E(\bar{X}) = E(\frac{1}{n}\sum_{i=1}^{n}X_i) = \frac{1}{n}n\mu = \mu$

2）如果总体 $X$ 具有方差 $\sigma^2$ ，则
$Var(\bar{X}) = \frac{1}{n}Var(X) = \frac{\sigma^2}{n}$
推导
$Var(\bar{X}) = Var(\frac{1}{n}\sum_{i=1}^{n}X_i) = \frac{1}{n^2}n\sigma^2 = \frac{\sigma^2}{n}$

我的天？怎么变成 $n - 1$ 了？这里是总体均值的无偏估计（无偏估计的意义是：在多次重复下，它们的平均数接近所估计的参数真值）！参考彻底理解样本方差为何除以n-1

下面我们来详细的分析一下来龙去脉！

无偏估计量的定义

设 $\hat{\theta}$ 是 $\theta$ 的估计量，如果 $E(\hat{\theta}) = \theta$ ，则称 $\hat{\theta} = \hat{\theta}(X_1,X_2,...,X_n)$ 是未知参数 $\theta$ 的无偏估计量！

以例子来说明，假如你想知道一所大学里学生的平均身高是多少，一个大学好几万人，全部统计有点不现实，但是你可以先随机挑选100个人，统计他们的身高，然后计算出他们的平均值，记为 $\bar{X_1}$ 。如果你只是把 $\bar{X_1}$ 作为整体的身高平均值，误差肯定很大，因为你再随机挑选出100个人，身高平均值很可能就跟刚才计算的不同，为了使得统计结果更加精确，你需要多抽取几次，然后分别计算出他们的平均值，分别记为 $\bar{X_1},\bar{X_2},...\bar{X_n},$ ：然后在把这些平均值，再做平均，记为 $E (X)$ ，这样的结果肯定比只计算一次更加精确，随着重复抽取的次数增多，这个期望值会越来越接近总体均值 $\mu$ ，如果满足 $\mu$ ，这就是一个无偏估计。（这段话来自彻底理解样本方差为何除以n-1）

如果样本方差除以的是 $n$ ，我们来看看它的均值和总体方差是否相等！

$\begin{aligned} E(S^2) &= E( \frac{1}{n}\sum_{i=1}^{n}(X_i-\bar{X})^2) = E(\frac{1}{n}\sum_{i=1}^{n}((X_i- \mu) - (\bar{X}-\mu))^2)\\ &= E(\frac{1}{n}\sum_{i=1}^{n}((X_i- \mu) ^2- 2(X_i- \mu)(\bar{X}-\mu)+(\bar{X}-\mu)^2))\\ &= E(\frac{1}{n}\sum_{i=1}^{n}(X_i- \mu) ^2- \frac{2}{n}\sum_{i=1}^{n}(X_i- \mu)(\bar{X}-\mu)+\frac{1}{n}\sum_{i=1}^{n}(\bar{X}-\mu)^2)\\ &= E(\frac{1}{n}\sum_{i=1}^{n}(X_i- \mu) ^2- 2(\bar{X}-\mu)^2+(\bar{X}-\mu)^2) \\ & 已知 \frac{1}{n}\sum_{i=1}^{n}(X_i- \mu) = \frac{1}{n}\sum_{i=1}^{n}X_i- \frac{1}{n}n\mu = \bar{X} - \mu\\ &= E(\frac{1}{n}\sum_{i=1}^{n}(X_i- \mu) ^2- (\bar{X}-\mu)^2) \\ &= E(\sigma^2)- E((\bar{X}-\mu)^2) \leq \sigma^2\\ \end{aligned}$

可惜了，不满足无偏估计！对上面的式子继续化简

$\begin{aligned} E(S^2) &=E(\sigma^2)- E((\bar{X}-\mu)^2)\\ &= \sigma^2- E((\bar{X}-\mu)^2) （参考前面样本数字特征的性质）\\ &= \sigma^2- E((\bar{X}-E(\bar{X}))^2)（方差的定义）\\ &= \sigma^2 - Var(\bar{X}) （参考前面样本数字特征的性质）\\ & = \sigma^2 - \frac{\sigma^2}{n} \\ & = \frac{n-1}{n} \sigma^2 \end{aligned}\\$

OK，调整下 $S^2$ 的形式就可以得到无偏估计了！

$E(S^2 \cdot \frac{n}{n-1}) = \frac{n}{n-1}E(S^2) = \sigma^2$

hold on，hold on，DJ drop the beat，我们来计算一下修改后的样本方差是否是总体方差的无偏估计！

$\begin{aligned} E(S^2\cdot \frac{n}{n-1}) &= E(\cdot \frac{n}{n-1} \frac{1}{n}\sum_{i=1}^{n}(X_i-\bar{X})^2) = E( \frac{1}{n-1}\sum_{i=1}^{n}(X_i-\bar{X})^2) \\ & = E(\frac{1}{n-1}\sum_{i=1}^{n}((X_i- \mu) - (\bar{X}-\mu))^2)\\ &= E(\frac{1}{n-1}\sum_{i=1}^{n}((X_i- \mu) ^2- 2(X_i- \mu)(\bar{X}-\mu)+(\bar{X}-\mu)^2))\\ &= E(\frac{1}{n-1}\sum_{i=1}^{n}(X_i- \mu) ^2- \frac{2}{n-1}\sum_{i=1}^{n}(X_i- \mu)(\bar{X}-\mu)+\frac{1}{n-1}\sum_{i=1}^{n}(\bar{X}-\mu)^2)\\ &= E(\frac{1}{n-1}\sum_{i=1}^{n}(X_i- \mu) ^2- \frac{2n}{n-1}(\bar{X}-\mu)^2+\frac{n}{n-1}(\bar{X}-\mu)^2)（因为 \frac{1}{n}\sum_{i=1}^{n}(X_i- \mu) = \frac{1}{n}\sum_{i=1}^{n}X_i- \frac{1}{n}n\mu = \bar{X} - \mu）\\ &= E(\frac{1}{n-1}\sum_{i=1}^{n}(X_i- \mu) ^2- \frac{n}{n-1}(\bar{X}-\mu)^2) \\ &=E(\frac{1}{n-1}\sum_{i=1}^{n}(X_i- \mu) ^2)- E(\frac{n}{n-1}(\bar{X}-\mu)^2) \\ &=\frac{n}{n-1}E(\frac{1}{n}\sum_{i=1}^{n}(X_i- \mu) ^2)- \frac{n}{n-1}E((\bar{X}-\mu)^2) \\ &= \frac{n}{n-1}\sigma^2 - \frac{n}{n-1} \cdot \frac{\sigma^2}{n} &= \sigma^2 \end{aligned}$

所以，样本的方差公式为：
$S^2 = \frac{1}{n-1}\sum_{i=1}^{n}(X_i-\bar{X})^2$
目的是得到总体方差的无偏估计！

2 最大似然估计和最小二乘法的联系

$x_1,x_2,...,x_n, x_i \in \mathbb{R}^m$

$y_1,y_2,...,y_n, y_i \in \mathbb{R}^1$

$\hat{y_i} = W^Tx_i,W \in \mathbb{R}^m$

最小二乘法需要用 $\hat{y_i}$ 拟合 $y_i$ ，使得误差 $\sum e_i^2 = \sum(y_i -\hat{y_i})^2$ 越小越好

对于最大似然估计

假设误差 $e_i \sim N(0,\sigma^2)$ 服从正态（高斯）分布（误差的均值为0，方差越小越好）

$e_i \sim \frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{e_i^2}{2\sigma^2}}$

对数释然

$\begin{aligned} lnL(x_1,x_2,...,x_n;\sigma) &= ln(\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{e_i^2}{2\sigma^2}})+ln(\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{e_i^2}{2\sigma^2}})+...+ln(\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{e_i^2}{2\sigma^2}}) \\ &= -nln(\sqrt{2\pi}) - nln(\sigma) - \sum_{i=1}^{n}\frac{e_i^2}{2\sigma^2} \end{aligned}$

对未知参数 $\sigma$ 求偏导

$\frac{\partial lnL(x_1,x_2,...,x_n;\sigma)}{\partial \sigma} = -\frac{n}{\sigma} + \frac{1}{\sigma^3}\sum_{i=1}^{n}e_i^2$

令偏导为零
$\begin{aligned} & -\frac{n}{\sigma} + \frac{1}{\sigma^3}\sum_{i=1}^{n}e_i^2 = 0 \\ \Rightarrow & \hat{\sigma}^2 = \frac{1}{n}\sum_{i=1}^{n}e_i^2 \end{aligned}$

我们知道 $e_i \sim N(0,\sigma^2)$ ，误差的均值为 0，方差越小越好（为0最好，一模一样）

这和最小二乘法 min $e_i^2$ 殊途同归！

3 最大后验概率估计

Maximum a posteriori（MAP）

说起最大后验概率，就不得不说起，统计学的两大派系：

频率派统计（frequentist statistics）
贝叶斯统计（Bayesian statistics）

最大似然估计属于频率派统计，最大后验概率估计属于贝叶斯统计的范畴！两者的主要区别如下：

最大似然方法预测时使用 $\theta$ 的点估计（ $\theta$ 是固定的，只是值未知）
贝叶斯方法使用的 $\theta$ 的全分布（ $\theta$ 是随机变量，即 $\theta$ 具有某种概率分布，称为先验分布）

最大后验概率估计选择后验概率最大的点，或者概率密度最大的点，因为贝叶斯公式很多情况不是那么好计算，但还是保留了先验概率，防止退化成最大似然估计！

最大似然估计：
$\theta_{ML}=\underset{\theta }{argmax}\prod_{i=1}^{m}p(x^{(i)};\theta )$

条件最大似然估计：

$\theta_{ML}=\underset{\theta }{argmax}\prod_{i=1}^{m}p(y^{(i)}|x^{(i)};\theta )$

贝叶斯估计：
$p(\theta|x^{(1)},...,x^{(m)}) = \frac{p(x^{(1)},...,x^{(m) }|\theta)p(\theta)}{p(x^{(1)},...,x^{(m) })}$

分母的计算是，遍历所有的 $\theta$ 算一次分子，显然，很多情况下很难计算的！

最大后验概率估计：

$\theta_{MAP}=\underset{\theta }{argmax} \ p(\theta|x^{(1)},...,x^{(m)}) = \underset{\theta }{argmax} \ p(x^{(1)},...,x^{(m)}|\theta)p(\theta) = \underset{\theta }{argmax}\prod_{i=1}^{m} \ p(x^{(i)}|\theta)p(\theta)$

只涉及到贝叶斯估计的分子部分

下面来看一个例子（来源于 deepshare.net）：

频率派统计（最大似然）

假设从不同超市调研得到西瓜的价格为（2.0，1.8，2.2，1.9，2.1）
价格 $X$ ~高斯分布，则可以用最大似然估计算出，西瓜的价格均值等于样本的均值，也即 2.0元

贝叶斯派统计（最大后验）

假设从不同超市调研得到西瓜的价格为（2.0，1.8，2.2，1.9，2.1）（2019年）
同时还统计得到前几年的西瓜价格如下：

年份	价格（元）
2018	1.5
2017	1.3
2016	1.2
2015	1.1
2014	1.2

我们先根据往年的数据，计算出先验概率，假如 $\mu$ 是服从正太分布的（这里当然也可以假设为其它分布，例如均匀分布）

2014-2018 年西瓜的均值为 1.26，方差为 0.13564659966250536，我们近似一下为 0.1

$p(\mu) = \frac{1}{\sqrt{2\pi}0.1}e^{-\frac{(\mu-1.26)^2}{0.02}}$

最大后验概率的求法如下

$\begin{aligned} \mu_{MAP} &= \underset{\mu}{argmax}\prod_{i=1}^{m} \ p(x^{(i)}|\mu)p(\mu) \\ & = \underset{\mu}{argmax}\prod_{i=1}^{5} \{ \frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x^{(i)} - \mu)^2}{2\sigma^2}}\} \frac{1}{\sqrt{2\pi}0.1}e^{-\frac{(\mu-1.26)^2}{0.02}} \end{aligned}$