参数估计_待估参数的个数怎么看-CSDN博客

本文链接：https://blog.csdn.net/uncle_gy/article/details/80573741

点估计

设总体 $X$ 的分布函数的形式已知，但它的一个或者多个参数未知，借助于总体 $X$ 的一个样本来估计总体未知参数的值的问题称为参数的点估计问题。
点估计问题的一般提法：
设总体 $X$ 的分布函数为 $F(x;\theta)$ 的形式为已知， $\theta$ 是待估计的参数。

$X_1,X_2,\cdots,X_n$ 是 $X$ 的一个样本， $x_1,x_2,\cdots,x_n$ 是相应的一个样本值。
点估计问题就是要构造一个适当的 $\hat{\theta}(X_1,X_2,\cdots,X_n)$ ,用它的观察值 $\hat{\theta}(x_1,x_2,\cdots,x_n)$ 作为未知参数 $\theta$ 的近似值，
我们称 $\hat{\theta}(X_1,X_2,\cdots,X_n)$ 为 $\theta$ 的估计量,称为 $\hat{\theta}(x_1,x_2,\cdots,x_n)$ 为 $\theta$ 的估计值。
在不至混淆的情况下统称估计量和估计值为估计。

矩估计法

设 $X$ 为连续型随机变量，其概率密度为 $f(x;\theta_1,\theta_2,\cdots,\theta_k)$ ,或 $X$ 为离散型随机变量，其分布律为 $P\{X=x\}=p(x;\theta_1,\theta_2,\cdots,\theta_k)$ ,其中 $\theta_1,\theta_2,\cdots,\theta_k$ 为待估计参数， $X_1,X_2,\cdots,X_n$ 是来自 $X$ 的样本。假设总体 $X$ 的前 $k$ 阶矩
连续型

μ_{ℓ} = E (X^{ℓ}) = \int_{- \infty}^{\infty} x^{ℓ} f (x; θ_{1}, θ_{2}, \dots, θ_{k}) d x

$\mu_\ell=E(X^{\ell})=\int_{-\infty}^{\infty}x^{\ell}f(x;\theta_1,\theta_2,\cdots,\theta_k)\mathbb{d}x$
或者：
离散型

μ ℓ = E (X ℓ) = \sum x \in R X x ℓ p (x; θ 1, θ 2, \dots, θ k)

$\mu_\ell=E(X^{\ell})=\sum_{x\in R_{X}}x^{\ell}p(x;\theta_1,\theta_2,\cdots,\theta_k)$

ℓ = 1, 2, \dots, k

$\ell=1,2,\cdots,k$
存在
一般来说，他们是

θ1,θ2,⋯,θk θ 1 , θ 2 , ⋯ , θ k $\theta_1,\theta_2,\cdots,\theta_k$ 的函数。基于样本矩

A ℓ = 1 n \sum i = 1 n X ℓ i

$A_{\ell}=\dfrac{1}{n}\sum_{i=1}^{n}X_{i}^{\ell}$
其中

RX R X $R_{X}$ 是

X X $X$ 的可能取值的范围

注：
矩估计法不要求总体服从什么分布，只要总体矩

E (X^{ℓ})

$E(X^{\ell})$ 存在即可。

矩估计量的性质：
$(1)$ 样本原点矩 $\dfrac{1}{n}\sum_{i=1}^{n}X_i^k$ 是相应总体原点矩 $E(X^k)$ 的无偏、一致估计，即：

E (1 n \sum i = 1 n X k i) = E (X k), 且, 1 n \sum i = 1 n X k i ⟶ P E (X k) (n \to \infty)

$E\left(\dfrac{1}{n}\sum_{i=1}^{n}X_i^k\right)=E(X^k),且,\dfrac{1}{n}\sum_{i=1}^{n}X_i^k\mathop{\longrightarrow}\limits^{P}E(X^k)(n\rightarrow\infty)$

(2) ( 2 ) $(2)$ 样本矩

Aℓ=1n∑ni=1Xℓi A ℓ = 1 n ∑ i = 1 n X i ℓ $A_{\ell}=\dfrac{1}{n}\sum_{i=1}^{n}X_{i}^{\ell}$ 的连续函数是相应总体矩

αℓ=E(Xℓ) α ℓ = E ( X ℓ ) $\alpha_\ell=E(X^\ell)$ 连续函数的一致(相合)性估计，但是未必是无偏估计，即：

g(A1,⋯,An)⟶Pg(a1,⋯,an) g ( A 1 , ⋯ , A n ) ⟶ P ⁡ g ( a 1 , ⋯ , a n ) $g(A_1,\cdots,A_n)\mathop{\longrightarrow}\limits^{P}g(a_1,\cdots,a_n)$ 但是

E(g(A1,⋯,An)) E ( g ( A 1 , ⋯ , A n ) ) $E(g(A_1,\cdots,A_n))$ 未必等于

g(a1,⋯,an) g ( a 1 , ⋯ , a n ) $g(a_1,\cdots,a_n)$

最大似然估计法

基本思想(最大似然估计原理)

对未知参数 $\theta$ 进行估计时，在该参数可能的取值范围 $\Theta$ 内选取，使”样本获得此观测值 $X_1,X_2,\cdots,X_n$ ”的概率最大的参数值 $\hat{\theta}$ 作为 $\theta$ 的估计，这样选定的 $\hat\theta$ 最有利于 $x_1,x_2,\cdots,x_n$ 的出现

$(1)$ 设总体 $X$ 是离散型，其概率分布为 $P\{X=x\}=p(x;\theta)$ ， $\theta$ 为未知参数， $X_1,X_2,\cdots,X_n$ 为 $X$ 的一个样本，则 $X_1,X_2,\cdots,X_n$ 取值为 $x_1,x_2,\cdots,x_n$ 的概率是

P {X 1 = x 1, X 2 = x 2, \dots, X n = x n} = \prod i = 1 n P {X i = x i} = \prod i = 1 n p (x i; θ)

$P\{X_1=x_1,X_2=x_2,\cdots,X_n=x_n\}=\prod_{i=1}^{n}P\{X_i=x_i\}=\prod_{i=1}^{n}p(x_i;\theta)$
显然这个概率值是

θ θ $\theta$ 的函数，将其记为

L (θ) = L (x 1, x 2, \dots, x n; θ) = \prod i = 1 n p (x i; θ)

$L(\theta)=L(x_1,x_2,\cdots,x_n;\theta)=\prod_{i=1}^{n}p(x_i;\theta)$
称

L(θ) L ( θ ) $L(\theta)$ 为样本

(x1,x2,⋯,xn) ( x 1 , x 2 , ⋯ , x n ) $(x_1,x_2,\cdots,x_n)$ 的似然函数，若存在

θ^∈Θ θ ^ ∈ Θ $\hat{\theta}\in\Theta$ 使得：

L (x 1, x 2, \dots, x n; θ^) = max θ \in Θ L (x 1, x 2, \dots, x n; θ)

$L(x_1,x_2,\cdots,x_n;\hat\theta)=\mathop{\max}_{\theta\in\Theta}L(x_1,x_2,\cdots,x_n;\theta)$
则称

θ^=θ^(x1,x2,⋯,xn) θ ^ = θ ^ ( x 1 , x 2 , ⋯ , x n ) $\hat{\theta}=\hat{\theta}(x_1,x_2,\cdots,x_n)$ 为未知参数

θ θ $\theta$ 的最大似然估计值，而相应的统计量

θ^=θ^(X1,X2,⋯,Xn) θ ^ = θ ^ ( X 1 , X 2 , ⋯ , X n ) $\hat{\theta}=\hat{\theta}(X_1,X_2,\cdots,X_n)$ 称为参数

θ θ $\theta$ 的最大似然估计量。

$(2)$ 同理，如果总体 $X$ 是连续型随机变量，其概率密度为 $f(x;\theta),\theta\in\Theta$ 则样本的似然函数为

L (θ) = L (x 1, x 2, \dots, x n; θ) = \prod i = 1 n f (x i; θ)

$L(\theta)=L(x_1,x_2,\cdots,x_n;\theta)=\prod_{i=1}^{n}f(x_i;\theta)$
若存在

θ^=θ^(x1,x2,⋯,xn)∈Θ θ ^ = θ ^ ( x 1 , x 2 , ⋯ , x n ) ∈ Θ $\hat{\theta}=\hat{\theta}(x_1,x_2,\cdots,x_n)\in\Theta$ 使得

L(θ^)=maxθ∈Θ∏ni=1f(xi;θ) L ( θ ^ ) = max θ ∈ Θ ⁡ ∏ i = 1 n f ( x i ; θ ) $L(\hat{\theta})=\mathop{\max}\limits_{\theta\in\Theta}\prod_{i=1}^{n}f(x_i;\theta)$ ,则称

θ^(x1,x2,⋯,xn) θ ^ ( x 1 , x 2 , ⋯ , x n ) $\hat{\theta}(x_1,x_2,\cdots,x_n)$ 为

θ θ $\theta$ 的最大似然估计值，
相应的统计量

θ^=θ^(X1,X2,⋯,Xn) θ ^ = θ ^ ( X 1 , X 2 , ⋯ , X n ) $\hat{\theta}=\hat{\theta}(X_1,X_2,\cdots,X_n)$ 称为参数

θ θ $\theta$ 的最大似然估计量。

求最大似然估计量的步骤

$(1)$ 写出样本的似然函数

L (x 1, x 2, \dots, x n; θ 1, θ 2, \dots, θ k) = \prod i = 1 n p (x i; θ 1, θ 2, \dots, θ k) 或 \prod i = 1 n f (x i; θ 1, θ 2, \dots, θ k)

$L(x_1,x_2,\cdots,x_n;\theta_1,\theta_2,\cdots,\theta_k)=\prod_{i=1}^{n}p(x_i;\theta_1,\theta_2,\cdots,\theta_k)或\prod_{i=1}^{n}f(x_i;\theta_1,\theta_2,\cdots,\theta_k)$

(2) ( 2 ) $(2)$ 如果

p(x;θ1,θ2,⋯,θk) p ( x ; θ 1 , θ 2 , ⋯ , θ k ) $p(x;\theta_1,\theta_2,\cdots,\theta_k)$ 或

f(x;θ1,θ2,⋯,θk) f ( x ; θ 1 , θ 2 , ⋯ , θ k ) $f(x;\theta_1,\theta_2,\cdots,\theta_k)$ 关于

θi(i=1,⋯,k) θ i ( i = 1 , ⋯ , k ) $\theta_i(i=1,\cdots,k)$ 可微，则令

∂L∂θi=0 ∂ L ∂ θ i = 0 $\dfrac{\partial{L}}{\partial{\theta_i}}=0$ 或者

∂lnL∂θi=0 ∂ ln ⁡ L ∂ θ i = 0 $\dfrac{\partial{\ln{L}}}{\partial{\theta_i}}=0$
由于

L(θ) L ( θ ) $L(\theta)$ 是乘积形式，又

lnx ln ⁡ x $\ln{x}$ 是

x x $x$ 的单调增函数，由此

L (θ)

$L(\theta)$ 与

lnL(θ) ln ⁡ L ( θ ) $\ln{L(\theta)}$ 在同一

θ θ $\theta$ 处取得极值，所以更多的是采用对数似然方程的方法：

∂lnL∂θi=0 ∂ ln ⁡ L ∂ θ i = 0 $\dfrac{\partial\ln{L}}{\partial{\theta_i}}=0$ , 求得

θi θ i $\theta_i$ 的最大似然估计量

θ^i = θ^i (X 1, X 2, \dots, X n) (i = 1, 2, \dots, k)

$\hat{\theta}_i=\hat{\theta}_i(X_1,X_2,\cdots,X_n)(i=1,2,\cdots,k)$

(3) ( 3 ) $(3)$ 如果

p(x;θ1,θ2,⋯,θk) p ( x ; θ 1 , θ 2 , ⋯ , θ k ) $p(x;\theta_1,\theta_2,\cdots,\theta_k)$ 或

f(x;θ1,θ2,⋯,θk) f ( x ; θ 1 , θ 2 , ⋯ , θ k ) $f(x;\theta_1,\theta_2,\cdots,\theta_k)$ 不可微，或者似然方程组无解，则应由定义用其他方法求得

θ^i θ ^ i $\hat{\theta}_i$ ,例如当

L(θ) L ( θ ) $L(\theta)$ 为

θ θ $\theta$ 的单调增（或减）函数时，

θ^ θ ^ $\hat\theta$ 为

θ θ $\theta$ 取值的上限（或下限）

最大似然估计量的不变性原则

设 $\hat{\theta}_i$ 是总体分布中未知参数 $\theta$ 的最大似然估计，函数 $u=u(\theta)$ 具有单值的反函数 $\theta=\theta(u)$ ，则 $\hat{u}=u(\hat\theta)$ 是 $u(\theta)$ 的最大似然估计。

估计量的评价标准

$(1)$ 无偏性
若参数 $\theta$ 的估计量 $\hat{\theta}=\hat{\theta}(X_1,X_2,\cdots,X_n)$ 对一切 $n$ 及 $\theta\in\Theta$ ,有 $E(\hat{\theta})=\theta$ ,则称 $\hat\theta$ 为 $\theta$ 的无偏估计量，否则称为有偏估计量。
$(2)$ 有效性(最小方差性)
设 $\hat{\theta}_1=\hat{\theta}_1(X_1,X_2,\cdots,X_n)$ 与 $\hat{\theta}_2=\hat{\theta}_2(X_1,X_2,\cdots,X_n)$ 都是 $\theta$ 的无偏估计量，如果 $D(\hat{\theta}_1)<D(\hat{\theta}_2)$ 则称 $\hat{\theta}_1$ 比 $\hat{\theta}_2$ 有效
$(3)$ 一致性(相合性)
设 $\hat{\theta}=\hat{\theta}(X_1,X_2,\cdots,X_n)$ 为未知参数 $\theta$ 的估计量，如果对于任意 $\epsilon>0$ ，有 $\lim\limits_{n\rightarrow\infty}P\{|\hat\theta-\theta|<\epsilon\}=1$ ,即 $\hat{\theta}\mathop\longrightarrow\limits^{P}\theta(n\rightarrow\infty)$ ,则称 $\hat{\theta}$ 为 $\theta$ 的一致估计量(或相合估计量)