瞎想-从符号字面意思上看看最大似然估计MLE和最大后验估计MAP

最新推荐文章于 2023-09-27 16:17:32 发布

菜菜X

最新推荐文章于 2023-09-27 16:17:32 发布

阅读量688

点赞数 1

分类专栏：应用数学技术文章标签：概率论 MLE MAP

本文链接：https://blog.csdn.net/ALexander_Monster/article/details/109902821

版权

应用数学技术专栏收录该内容

14 篇文章 1 订阅

订阅专栏

Version	S	Description	Date	By
V1	C	First Version	2020-11-21	AYZP

C―― Create，
A—— Add，
M—— Modify，
D—— Delete。

前言

今天在图书馆看看自己以前的一些数学笔记的时候，对以前瞎存在的一些瞎鸡儿问题做了一些瞎鸡儿的想法，记录一下，方便以后慢慢懂了之后来推翻。

一分析

首先，明白估计是来干嘛的:

利用经验数据获得对未观测量的点态估计
即，利用已有观测到的经验数据，对下一时刻的未进行观测的数据进行估计，也叫预测。

再详细的说一下估计到底是求什么：
根据已有观测数据X去估计未知的参数 $\theta$ ，这个参数 $\theta$ 可以用来描述未观测到的总体。

用人话讲就是，得到了这个参数 $\theta$ ，你就可以利用一个包含有 $\theta$ 的数学公式，算出未观测到的下一时刻数据的状态，这就完成了估计。

所以，估计就变成了求未知参数 $\theta$ 。

二求参数 $\theta$

从上面的分析我们知道了，估计就是求总体参数 $\theta$ ，现在有两个流派来求这个参数 $\theta$ ，一个是概率派，一个是贝叶斯派。

2.1 概率派求参数 $\theta$ ：

概率派怎么求这个参数 $\theta$ 呢，概率派先做了个假设：

假设参数 $\theta$ 是一个未知的常数，
假设已有的经验数据为随机变量 $X$ （实际上就是一个数据矩阵），这个经验数据 $X$ 服从一个概率分布

$\widetilde{~~~} P(X|\theta )$

然后，我们的任务就是求这个参数 $\theta$ ，使得这个概率 $P(X|\theta)$ 的概率值最大。为什么要这样呢，理解一下： $P(X|\theta)$ 从表面上看，是当 $\theta$ 发生时， $X$ 出现的概率，换句话说，就是当我们得到了一个参数 $\theta$ ，这个参数 $\theta$ 使得真实的数据 $X$ 出现的概率最大，也就是说通过这个 $\theta$ 估计计算下一时刻 $X$ 能最接近真实数据 $X$ 。

最后，频率派是怎么求 $\theta$ ，用最大似然估计（Maximum Likelihood Estimate, MLE）:

在这里插入图片描述

2.2 贝叶斯派求参数 $\theta$

贝叶斯派怎么求这个参数 $\theta$ 呢，贝叶斯派也做了个假设：

假设参数 $\theta$ 是一个概率分布，注意不是常值了！

$\theta \widetilde{~~~} P(\theta )$
(也有装逼者，称这个 $\theta$ 有一个先验)

假设已有的经验数据为随机变量 $X$ （实际上就是一个数据矩阵），这个经验数据 $X$ 服从一个概率分布
$\widetilde{~~~} P(X|\theta )$

然后，贝叶斯派怎么求这个概率分布 $\theta$ 呢？那就是如这个派的名字一样，用贝叶斯公式来求这个 $\theta$ ，而求这个 $\theta$ 的过程就叫做最大后验估计（maximum a posteriori probability estimate, 简称MAP），请看超人：

在这里插入图片描述

$P(\theta|X)$ 是指当 $X$ 发生的情况下， $\theta$ 发生的概率。而 $\mathop {\arg \max }\limits_\theta P(\theta |X)$ 是指求使得 $P(\theta|X)$ 最大的 $\theta$ 的值。也就是说，在已知 $X$ 发生下，出现最多的 $\theta$ 是哪个 $\theta$ （记住哦，在贝叶斯派里，我们 $\theta$ 是个分布呢）。

是不是可以反过来想一想，在真实的数据 $X$ 中，某个参数 $\theta$ 出现的次数最多，那么通过这个出现次数最多的参数 $\theta$ 估计计算得到的下一时刻 $X$ 能最接近真实数据 $X$

上面的公式显示，是在已知经验数据 $X$ 的情况下，直接求参数 $\theta$ 。确切的说，是求出现最多的参数 $\theta$ 。在 $X$ 和 $\theta$ 都是分布的情况下，直接求不出来，就用贝叶斯公式来求，通过贝叶斯公式，将直接求 $\theta$ 的过程转换为频率派的 $P(X|\theta)$ 。