参数的点估计问题与矩估计法

最新推荐文章于 2023-12-04 18:48:40 发布

jk大懒猫

最新推荐文章于 2023-12-04 18:48:40 发布

阅读量3.9k

点赞数 1

分类专栏：数学机器学习文章标签：概率论数理统计

本文链接：https://blog.csdn.net/u012074597/article/details/79713561

版权

机器学习同时被 2 个专栏收录

7 篇文章 0 订阅

订阅专栏

数学

5 篇文章 0 订阅

订阅专栏

机器学习的许多公式推导都涉及了数理统计的内容，特别是参数估计对理解机器学习很重要。这里三篇文章就对三种参数估计方法进行简单介绍。

对一些数理统计的基本概念的介绍，可参考之前的文章“数理统计学的基本概念”。

参数的点估计问题

设有一个统计总体，以 $f(x;\theta_1,\cdots,\theta_k)$ 记其概率密度函数（若总体分布为连续型的）或其概率函数（若其总体分布为离散型的）。避免重复交代这两种情况，我们约定称 $f(x;\theta_1,\cdots,\theta_k)$ 为“总体分布”，其具体含义视其为连续型或离散型而定。这个分布包含k个位置参数 $\theta_1,\cdots,\theta_k$ 。例如，对正态总体分布 $N(\mu,\delta^2)$ ，有 $\theta_1=\mu$ ， $\theta_2=\delta^2$ ，而

f (x; θ 1, θ 2) = (2 π θ 2 ‾ ‾ ‾ ‾ ‾ \sqrt) - 1 exp (- 1 2 θ 2 (x - θ 1) 2) (- \infty < x < \infty)

$f(x;\theta_1,\theta_2)=(\sqrt{2\pi\theta_2})^{-1}\exp(-\frac{1}{2\theta_2}(x-\theta_1)^2)\qquad (-\infty\lt x\lt\infty)$
若总体有二项分布

B(n,p) B ( n , p ) $B(n,p)$ ，则

θ1=p θ 1 = p $\theta_1=p$ ，而

f (x; θ 1) = (n x) θ x 1 (1 - θ 1) n - k (x = 0, 1, \dots, n)

$f(x;\theta_1)=\binom{n}{x}\theta_1^x(1-\theta_1)^{n-k}\qquad (x=0,1,\cdots,n)$
当k=1，即只有一个参数时，就用

θ θ $\theta$ 代替

θ1 θ 1 $\theta_1$

参数估计问题的一般提法是：设有了从总体中抽出样本 $X_1,\cdots,X_n$ （独立同分布），要依据这些样本去对参数 $\theta_1,\cdots,\theta_k$ 的未知值做出估计。当然我们也可以只要求估计 $\theta_1,\cdots,\theta_k$ 中的一部分，或估计他们的某个已知函数 $g(\theta_1,\cdots,\theta_k)$ 。例如，为要估计 $\theta_1$ ，我们需要构造出适当的统计量 $\hat{\theta_1}=\hat{\theta_1}(X_1,\cdots,X_n)$ 。每当有了样本 $X_1,\cdots,X_n$ ，就代入函数 $\hat{\theta_1}(X_1,\cdots,X_n)$ 中计算出一个值，用来作为 $\theta_1$ 的估计值。为着这样的特定目的而构造的统计量 $\hat{\theta_1}$ 叫做 $\theta_1$ 的估计量。由于未知参数 $\theta_1$ 是数轴上的一个点，用 $\hat{\theta_1}$ 去估计 $\theta_1$ ，等于用一个点估计另一个点，所以这样的估计叫做点估计，以别与区间估计。

矩估计法

矩估计法的思想比较简单：设总体分布为 $f(x;\theta_1,\cdots,\theta_k)$ ，则它的矩（原点矩和中心矩都可以，此处以原点矩为例）

α m = \int \infty - \infty x m f (x; θ 1, \dots, θ k) d x (或 \sum i x m i) f (x; θ 1, \dots, θ k) ）

$\alpha_m=\int_{-\infty}^{\infty}x^mf(x;\theta_1,\cdots,\theta_k)dx\qquad(或\sum_{i}x_i^m)f(x;\theta_1,\cdots,\theta_k)）$
依赖于

θ1,⋯,θk θ 1 , ⋯ , θ k $\theta_1,\cdots,\theta_k$ 。另一方面，至少在样本大小n较大时，样本原点矩

am a m $a_m$ 应该接近于

αm α m $\alpha_m$ 。于是

α m = α m (θ 1, \dots, θ k) \approx a m = \sum i = 1 n X m i / n

$\alpha_m=\alpha_m(\theta_1,\cdots,\theta_k)\approx a_m=\sum_{i=1}^{n}X_i^m/n$
取

m=1,⋯,k m = 1 , ⋯ , k $m=1,\cdots,k$ ，并将上面的近似式改成等式，就得到一个方程组：

α m (θ 1, \dots, θ k) = a m (m = 1, \dots, k)

$\alpha_m(\theta_1,\cdots,\theta_k)=a_m\qquad (m=1,\cdots,k)$
解此方程组，得起根

θ1^(X1,⋯,Xn)(i=1,⋯,k) θ 1 ^ ( X 1 , ⋯ , X n ) ( i = 1 , ⋯ , k ) $\hat{\theta_1}(X_1,\cdots,X_n)\quad(i=1,\cdots,k)$ ，就以

θ̂ i θ ^ i $\hat\theta_i$ 作为

θi θ i $\theta_i$ 的估计

(i=1,⋯,k) ( i = 1 , ⋯ , k ) $(i=1,\cdots,k)$ 。如果要估计的是

θ1,⋯,θk θ 1 , ⋯ , θ k $\theta_1,\cdots,\theta_k$ 的某函数

g(θ1,⋯,θk) g ( θ 1 , ⋯ , θ k ) $g(\theta_1,\cdots,\theta_k)$ ，则用

ĝ (X1,⋯,Xn)=g(θ̂ 1,⋯,θ̂ k) g ^ ( X 1 , ⋯ , X n ) = g ( θ ^ 1 , ⋯ , θ ^ k ) $\hat g(X_1,\cdots,X_n)=g(\hat \theta_1,\cdots,\hat \theta_k)$ 去估计它。这样定出的估计量就叫做矩估计。

例子

设 $X_1,\cdots,X_n$ 是从正态总体 $N(\mu,\delta^2)$ 中抽取的样本，要估计 $\mu$ 和 $\delta^2$ 。 $\mu$ 是总体的一阶原点矩，按矩估计，用样本的一阶原点矩，即样本均值 $\overline X$ 去估计。 $\delta^2$ 是总体方差，即总体的二阶中心矩，可用样本的二阶中心矩 $m_2$ 去估计。一般地，在估计方差时，常用样本方差 $S^2$ 而不用 $m_2$ ，即对矩估计做了一定的修正。

参考书目
《概率论与数理统计》——陈希孺

jk大懒猫

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
参数的点估计问题与矩估计法

机器学习的许多公式推导都涉及了数理统计的内容，特别是参数估计对理解机器学习很重要。这里三篇文章就对三种参数估计方法进行简单介绍。对一些数理统计的基本概念的介绍，可参考之前的文章“数理统计学的基本概念”。参数的点估计问题设有一个统计总体，以f(x;θ1,⋯,θk)f(x;θ1,⋯,θk)f(x;\theta_1,\cdots,\theta_k)记其概率密度函数（若总体分布为连续型的）或其...
复制链接

扫一扫