参数估计有两种形式:点估计与区间估计。本文选择几种常用的点估计方法作一些讨论。
用于估计未知参数的统计量称为点估计(量)。参数 θ \theta θ 的估计量常用 θ ^ = θ ^ ( x 1 , x 2 , … , x n ) \hat{\theta} = \hat{\theta}(x_{1},x_{2}, \dots, x_{n}) θ^=θ^(x1,x2,…,xn) 表示,参数 θ \theta θ 的可能取值范围称为参数空间,记为 Θ = { θ } \Theta = \{\theta\} Θ={ θ}。
最大似然估计
最大似然估计,即对似然函数最大化,其关键是从样本 x x x 和含有位置参数 θ \theta θ 的分布 p ( x , θ ) p(x,\theta) p(x,θ) 获得似然函数。设 x = ( x 1 , x 2 , … , x n ) x=(x_{1},x_{2},\dots,x_{n}) x=(x1,x2,…,xn) 是来自含有未知参数的某分布 p ( x , θ ) p(x,\theta) p(x,θ) 的一个样本,那么其联合分布为:
p ( x , θ ) = ∏ i = 1 n p ( x i , θ ) p(x,\theta) = \prod_{i=1}^{n}p(x_{i},\theta) p(x,θ)=i=1∏np(xi,θ) 其中 p ( x i , θ ) p(x_{i},\theta) p(xi,θ) 在连续场合是指密度函数在 x i x_{i} xi 处的值,在离散场合为分布列中的一个概率 P θ ( X = x i ) P_{\theta}(X=x_{i}) Pθ(X=xi) 。对样本分布 p ( x , θ ) p(x,\theta) p(x,θ) 我们知道:
- 样本如何产生?先有 θ \theta θ 后有 x x x,即先有一个给定的 θ \theta θ 的值 θ 0 \theta_{0} θ0,然后由分布 p ( x , θ 0 ) p(x,\theta_{0}) p(x,θ0) 经过随机抽样产生样本观察值 x x x。
- 如今我们有了 x x x 如何追溯参数 θ 0 \theta_{0} θ0 呢?当给定样本观察值 x x x 时样本分布 p ( x , θ ) p(x,\theta) p(x,θ) 仅是 θ \theta θ 的函数,可记为 L ( θ , x ) L(\theta,x) L(θ,x) 或 L ( θ ) L(\theta) L(θ),并称其为似然函数。对于不同的 θ 1 , θ 2 ∈ Θ \theta_{1},\theta_{2}\in\Theta θ1,θ2∈Θ,可使得样本观察值 x x x 出现的机会不同。若 L ( θ 1 ) > L ( θ 2 ) L(\theta_{1}) > L(\theta_{2}) L(θ1)>L(θ2),表明 θ 1 \theta_{1} θ1 会使 x x x 出现的机会比 θ 2 \theta_{2} θ2 更大些,即 θ 1 \theta_{1} θ1 比 θ 2 \theta_{2} θ2 更像真值 θ 0 \theta_{0} θ0。也就是说 L ( θ ) L(\theta) L(θ) 成为了度量 θ \theta θ 更像真值的程度,其值越大越像。按此思路,在参数空间 Θ \Theta Θ 中使 L ( θ ) L(\theta) L(θ) 最大的 θ ^ \hat{\theta} θ^ 就是最像 θ 0 \theta_{0} θ0 的真值,这个 θ ^ \hat{\theta} θ^ 就是 θ \theta θ 的最大似然估计。
这里给出两个实例。
1.伯努利分布实例
假设 P ( X = 1 ) = p , P ( X = 0 ) = 1 − p P(X=1)=p,P(X=0)=1-p P(X=1)=p,P(X=0)=1−p 综合起来就有
P ( X ) = p X ( 1 − p ) 1 − X P(X)=p^{X}(1-p)^{1-X} P(X)=pX(1−p)1−X
此时如果有一组数据 D D D 是从这个随机变量中采样得到的,那么就有
m a x p log P ( D ) = max p log ∏ i N P ( D i ) = max p ∑ i N log P ( D i ) = max p ∑ i N [ D i log p + ( 1 − D i ) log ( 1 − p ) ] \begin{aligned} \ max_{p}\log P(D)&= \max_{p}\log\prod_{i}^{N}P(D_{i}) \\ &=\max_{p}\sum_{i}^{N}\log P(D_{i}) \\ &=\max_{p}\sum_{i}^{N}[D_{i}\log p+(1-D_{i})\log(1-p)] \end{aligned} maxplogP(D)=pmaxlog