[数理知识]参数估计:点估计、区间估计及置信区间

本文介绍了参数估计的基础知识,包括数学期望、方差与协方差、常用概率分布及其期望、方差。重点讨论了大数定律、中心极限定理在参数估计中的作用,如切比雪夫不等式、大数定律的几个变形以及中心极限定理的意义。接着,阐述了点估计的概念,如矩估计和最大似然估计,并通过实例进行解释。最后,讲解了区间估计的置信区间和评价标准,包括无偏性、有效性和一致性。文章旨在帮助读者理解参数估计的核心概念和应用。
摘要由CSDN通过智能技术生成


Preliminaries

了解参数估计,需要知道以下先导知识:

数学期望、方差与协方差

参见:[数理知识]机器学习入门: 概率论与信息论基础 - 数学期望、方差与协方差

常用概率分布及其期望、方差

参见:[数理知识]机器学习入门: 概率论与信息论基础 - 常用概率分布及其期望、方差


参数估计问题

参数估计是数理统计中重要的统计推断问题之一。
给定 x ∼ P ( x ; θ ) x \sim P(x;\theta) xP(x;θ),参数 θ \theta θ 控制了 x x x 的分布“范围”:

  • 我们在已知其概率分布模型和一系列随机变量 x x x 的值之后,试图推测出 θ \theta θ 的值;(点估计)
  • 在点估计的基础上,从抽样数据的统计计算中可以对其与总体样本的真实参数的接近程度求出一个概率度量,在此概率下给出总体参数估计的一个可信的区间范围。(区间估计)

这类问题就被统称为参数估计问题。

一、大数定律及中心极限定理

在正式开始参数估计之前,需要了解一下其先导知识——大数定律及中心极限定理。

1 切比雪夫不等式(Chebyshev)

x x x 是随机变量,如果其期望 E \mathbb E E 和方差 V a r ( x ) Var(x) Var(x) 存在,则 ∀ ε > 0 \forall \varepsilon>0 ε>0 有:
V a r ( x ) ε 2 ≥ P ( ∣ x − E ∣ ≥ ε ) \frac{Var(x)}{\varepsilon^2} \ge P(\vert x-\mathbb E \vert \ge \varepsilon) ε2Var(x)P(xEε)

证明:因为 ∣ x − E ∣ ≥ ε \vert x-\mathbb E \vert \ge \varepsilon xEε ε ≥ 0 \varepsilon \ge 0 ε0 所以有 ( ∣ x − E ∣ ε ) 2 ≥ 1 (\frac{\vert x-\mathbb E \vert}{\varepsilon})^2 \ge 1 (εxE)21
x x x 的概率密度函数为 p ( x ) p(x) p(x),则有:
P ( ∣ x − E ∣ ≥ ε ) = ∫ ∣ x − E ∣ ≥ ε p ( x ) d x ≤ ∫ ∣ x − E ∣ ≥ ε ( ∣ x − E ∣ ε ) 2 p ( x ) d x ≤ ε − 2 ∫ − ∞ + ∞ ( ∣ x − E ∣ ) 2 p ( x ) d x P ( ∣ x − E ∣ ≥ ε ) ≤ V a r ( x ) ε 2 \begin{aligned} P(\vert x-\mathbb E \vert \ge \varepsilon) &= \int_{\vert x-\mathbb E \vert \ge \varepsilon}p(x)dx\\ &\le \int_{\vert x-\mathbb E \vert \ge \varepsilon}(\frac{\vert x-\mathbb E \vert}{\varepsilon})^2p(x)dx\\ &\le {\varepsilon}^{-2} \int_{-\infin}^{+\infin}(\vert x-\mathbb E \vert)^2 p(x)dx \\ P(\vert x-\mathbb E \vert \ge \varepsilon) &\le \frac{Var(x)}{\varepsilon^2} \end{aligned} P(xEε)P(xEε)=xEεp(x)dxxEε(εxE)2p(x)dxε2+(xE)2p(x)dxε2Var(x)∴ 原命题得证。

  • 显然, 1 − V a r ( x ) ε 2 ≤ P ( ∣ x − E ∣ < ε ) 1-\frac{Var(x)}{\varepsilon^2} \le P(\vert x-\mathbb E \vert < \varepsilon) 1ε2Var(x)P(xE<ε)
  • 切比雪夫不等式给出了如何在随机变量的分布未知而期望和方差已知的情况下估计 P ( ∣ x − E ∣ ≥ ε ) P(\vert x-\mathbb E \vert \ge \varepsilon) P(xEε)的极限。
  • 下文中的切比雪夫大数定律等几个大数定律变形均可由切比雪夫不等式证明得到。

2 大数定律(Law of Large Numbers)

依概率收敛 : 设有随机变量序列 x 1 , x 2 , ⋯   , x n , ⋯ x_1,x_2,\cdots ,x_n,\cdots x1,x2,,xn, 对 随机变量 x x x 使得 ∀ ε > 0 \forall \varepsilon>0 ε>0 有: lim ⁡ n → ∞ P ( ∣ x − x n ∣ ≥ ε ) = 0 \lim_{n \rightarrow \infin}P\left( \vert x-x_n \vert \ge \varepsilon \right)=0 nlimP(xxnε)=0则称序列 x i x_i xi依概率收敛于 x x x, 记为 x i ⟶ P x x_i \stackrel{P}{\longrightarrow}x xiPx

大数定律:设有随机变量序列 x 1 , x 2 , ⋯   , x n , ⋯ x_1,x_2,\cdots ,x_n,\cdots x1,x2,,xn, ,其任意划分的互斥组合的期望值从小到大排列为 a 1 , a 2 , ⋯   , a n a_1,a_2,\cdots ,a_n a1,a2,,an 使得 ∀ ε > 0 \forall \varepsilon>0 ε>0 有:
lim ⁡ n → ∞ P ( ∣ 1 n ∑ i = 1 n x i − a n ∣ ≥ ε ) = 0 \lim_{n \rightarrow \infin}P \left( \vert \frac{1}{n}\sum_{i=1}^{n}x_i-a_n \vert \ge \varepsilon \right)=0 nlimP(n1i=1nxianε)=0或记作:
1 n ∑ i = 1 n x i ⟶ P a n ,   n → ∞ \frac{1}{n}\sum_{i=1}^nx_i \stackrel{P}{\longrightarrow }a_n,~n \rightarrow \infin n1i=1nxiPan, n

Tip:大数定律说明了随机变量序列前若干项的算术平均值在某种条件下收敛到这些项的数学期望。(注意:数学期望 E \mathbb E E在概念上不等于算术平均值 1 n ∑ i n x i \frac{1}{n}\sum_i^n x_i n1inxi,只有在 x i x_i xi等概率分布时二者等值。)

  • 大数定律以严格的数学形式表现了随机事件在足够的广度上的频率稳定性。利用这一性质,我们可以基于抽样样本中的均值来估计整体的均值。

它具有以下几个变形:

  • 切比雪夫大数定律 设相互独立的随机变量序列(集合) x 1 , x 2 , ⋯   , x n , ⋯ x_1,x_2,\cdots ,x_n,\cdo

  • 4
    点赞
  • 34
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值