最大似然估计

最新推荐文章于 2024-07-24 15:56:49 发布

dengpei187

最新推荐文章于 2024-07-24 15:56:49 发布

阅读量2.5k

点赞数

分类专栏：机器学习文章标签：最大似然估计原理例子

机器学习专栏收录该内容

5 篇文章 0 订阅

订阅专栏

注：本文主要出自于维基百科。

原理

给定一个概率分布D，假定器概率密度函数（连续分布）或概率质量函数（离散分布）为 $f_D$ ，以及一个分布参数 $\theta$ ，我们可以从这个分布中抽取一个具有n个值的采样 $X_1,X_2,...,X_n$ ，通过利用 $f_D$ ，我们就能计算出其概率：

P (x 1, x 2, . . ., x n) = f D (x 1, x 2, . . ., x n | θ)

$\mathbb P(x_1,x_2,...,x_n)=f_D(x_1,x_2,...,x_n|\theta)$

参数 $\theta$ 不确定，但是模型 $f_D$ 是确定的，所以要估计 $\theta$ 的值，就要从这个分布中抽取n个值的采样 $X_1,X_2,...,X_n$ ，利用这些采样数据来估计参数 $\theta$ 。

要在数学上实现最大似然估计，首先要定义似然函数：

l i k (θ) = f D (x 1, x 2, . . ., x n | θ)

$lik(\theta)=f_D(x_1,x_2,...,x_n|\theta)$ 并且在

θ $\theta$ 的所有取值上，使这个函数最大化（使用一阶导数确定），这个使可能性最大的参数即为

θ $\theta$ 的 最大似然估计。

注意： 似然函数是指当 $x_1,x_2,...,x_n$ 不变时，关于 $\theta$ 的一个函数；最大似然函数不一定唯一，也可能不存在。

举例

离散分布，离散有限参数空间

考虑一个抛硬币的例子。假设这个硬币正面跟反面轻重不同。我们把这个硬币抛80次（即，我们获取一个采样 $x_1=H,x_2=T,...,x_{80}=T$ ,并把正面的次数记下来，正面记为H，反面记为T）。并把抛出一个正面的概率记为 $p$ ，抛出一个反面的概率记为 $1-p$ （因此，这里的 $p$ 即相当于上边的 $\theta$ ）。假设我们抛出了49个正面，31个反面，即49次H，31次T。假设这个硬币是我们从一个装了三个硬币的盒子里头取出的。这三个硬币抛出正面的概率分别为 $p=1/3,p=1/2,p=2/3$ .这些硬币没有标记，所以我们无法知道哪个是哪个。使用最大似然估计，通过这些试验数据（即采样数据），我们可以计算出哪个硬币的可能性最大。这个似然函数取以下三个值中的一个：

P (H = 49, T = 31 | p = 1 / 3) = (80 49) (1 / 3) 49 (1 - 1 / 3) 31 \approx 0.000

$\Bbb P(H=49,T=31|p=1/3)=\binom {80}{49} (1/3)^{49}(1-1/3)^{31}\approx0.000$

P (H = 49, T = 31 | p = 1 / 2) = (80 49) (1 / 2) 49 (1 - 1 / 2) 31 \approx 0.012

$\Bbb P(H=49,T=31|p=1/2)=\binom {80}{49} (1/2)^{49}(1-1/2)^{31}\approx0.012$

P (H = 49, T = 31 | p = 2 / 3) = (80 49) (2 / 3) 49 (1 - 2 / 3) 31 \approx 0.054

$\Bbb P(H=49,T=31|p=2/3)=\binom {80}{49} (2/3)^{49}(1-2/3)^{31}\approx0.054$

我们可以看到当 $\hat p=2/3$ 时，似然函数取得最大值，这就是p的最大似然估计。

离散分布，连续参数空间

现在假设例子1中的盒子中有无数个硬币，对于 $0 \le p \le 1$ 中的任何一个 $p$ ，都有一个抛出正面概率为 $p$ 的硬币对应，我们来求其似然函数的最大值：

l i k (θ) = f D (H = 49, T = 31 | p) = (80 49) (p) 49 (1 - p) 31

$lik(\theta)=f_D(H=49,T=31|p)=\binom {80}{49} (p)^{49}(1-p)^{31}$

可用微分法来求最值，对方程求微，并让其等于0。

0 = d d p (80 49) (p) 49 (1 - p) 31 \propto 49 p 48 (1 - p) 31 - 31 p 49 (1 - p) 30 = p 48 (1 - p) 30 (49 (1 - p) - 31 p)

$0= {d \over dp} \binom {80}{49} (p)^{49}(1-p)^{31} ∝ 49p^{48}(1-p)^{31}-31p^{49}(1-p)^{30}=p^{48}(1-p)^{30}(49(1-p)-31p)$ （∝为正比于的意思）。

最后的解为： $p=0,p=1,p=49/80$ ,最大似然估计值为 $\hat p=49/80$ ，符合伯努利试验– $\hat p=t/n$ ,t为成功次数，n为总次数。

连续分布，连续参数空间

最常见的连续概率分布是正态分布，其概率密度函数如下：

现在有 $n$ 个正态随机变量的采样点，要求的是一个这样的正态分布，这些采样点分布到这个正态分布可能性最大（也就是概率密度积最大，每个点更靠近中心点），其 $n$ 个正态随机变量的采样的对应密度函数（假设其独立并服从同一分布）为：
n个变量正态分布的密度函数
或

这个分布有两个参数： $\mu,\sigma^2$ .实际上，在两个参数上的求最大值的方法也差不多：只需要分别把可能性 $lik(\mu,\sigma)=f(x_1,x_2,...,x_n|\mu,\sigma^2)$ 在两个参数上最大化即可。当然这比一个参数麻烦一些，但是一点也不复杂。使用上边例子同样的符号，我们有 $\theta=(\mu,\sigma^2)$ .