浅谈几种基本的点估计方法及实例-CSDN博客

本文链接：https://blog.csdn.net/philthinker/article/details/80487967

本文介绍了两种基本的点估计方法：最大似然估计和贝叶斯估计。最大似然估计通过最大化似然函数找到最佳参数估计，举例包括伯努利分布和高斯分布。贝叶斯估计则结合先验信息，通过后验分布来估计参数，后验期望作为均方误差最小化的估计。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

参数估计有两种形式：点估计与区间估计。本文选择几种常用的点估计方法作一些讨论。

用于估计未知参数的统计量称为点估计（量）。参数 $\theta$ 的估计量常用 $\hat{\theta} = \hat{\theta}(x_{1},x_{2}, \dots, x_{n})$ 表示，参数 $\theta$ 的可能取值范围称为参数空间，记为 $\Theta = \{\theta\}$ 。

最大似然估计

最大似然估计，即对似然函数最大化，其关键是从样本 $x$ 和含有位置参数 $\theta$ 的分布 $p(x,\theta)$ 获得似然函数。设 $x=(x_{1},x_{2},\dots,x_{n})$ 是来自含有未知参数的某分布 $p(x,\theta)$ 的一个样本，那么其联合分布为：
$p(x,\theta) = \prod_{i=1}^{n}p(x_{i},\theta)$ 其中 $p(x_{i},\theta)$ 在连续场合是指密度函数在 $x_{i}$ 处的值，在离散场合为分布列中的一个概率 $P_{\theta}(X=x_{i})$ 。对样本分布 $p(x,\theta)$ 我们知道：

样本如何产生？先有 $\theta$ 后有 $x$ ，即先有一个给定的 $\theta$ 的值 $\theta_{0}$ ，然后由分布 $p(x,\theta_{0})$ 经过随机抽样产生样本观察值 $x$ 。
如今我们有了 $x$ 如何追溯参数 $\theta_{0}$ 呢？当给定样本观察值 $x$ 时样本分布 $p(x,\theta)$ 仅是 $\theta$ 的函数，可记为 $L(\theta,x)$ 或 $L(\theta)$ ，并称其为似然函数。对于不同的 $\theta_{1},\theta_{2}\in\Theta$ ，可使得样本观察值 $x$ 出现的机会不同。若 $L(\theta_{1}) > L(\theta_{2})$ ，表明 $\theta_{1}$ 会使 $x$ 出现的机会比 $\theta_{2}$ 更大些，即 $\theta_{1}$ 比 $\theta_{2}$ 更像真值 $\theta_{0}$ 。也就是说 $L(\theta)$ 成为了度量 $\theta$ 更像真值的程度，其值越大越像。按此思路，在参数空间 $\Theta$ 中使 $L(\theta)$ 最大的 $\hat{\theta}$ 就是最像 $\theta_{0}$ 的真值，这个 $\hat{\theta}$ 就是 $\theta$ 的最大似然估计。

这里给出两个实例。

1.伯努利分布实例

假设 $P (X = 1) = p, P (X = 0) = 1 - p$ 综合起来就有
$P(X)=p^{X}(1-p)^{1-X}$
此时如果有一组数据 $D$ 是从这个随机变量中采样得到的，那么就有
$\begin{aligned} \ max_{p}\log P(D)&= \max_{p}\log\prod_{i}^{N}P(D_{i}) \\ &=\max_{p}\sum_{i}^{N}\log P(D_{i}) \\ &=\max_{p}\sum_{i}^{N}[D_{i}\log p+(1-D_{i})\log(1-p)] \end{aligned}$