估计

最新推荐文章于 2023-06-23 21:31:16 发布

东门之杨

最新推荐文章于 2023-06-23 21:31:16 发布

阅读量993

点赞数

文章标签：统计学估计最大似然置信区间

本文链接：https://blog.csdn.net/u013795675/article/details/45842943

版权

总体和样本

总体：研究对象的全体，可以归结为一个随机变量。
简单随机样本：每个数据独立同分布的来自总体的一个联合分布随机变量 $X=(X_1,...X_n)$ ，简称样本。
样本值：样本的一个取值 $\bf x$ ，为向量
样本空间：样本的取值空间。
样本两重性：代表性；独立性
统计量：样本空间上的任何函数。
统计模型：样本（随机向量）（空间）及其分布（分布族） $\{\mathbf{X}\sim P_{\theta},\theta\in\Theta\}$

统计推断

统计推断：从总体中抽取一定大小的样本去推断总体的概率分布。
分为参数推断和非参数推断。
在统计模型下，从参数空间 $\Theta$ 中选取一个值作为参数真值的估计。
非参数估计只推断分布，不研究其他数字特征。
主要内容
1. 估计，总体（随机变量）的数字特征‘
2. 假设检验
3. 回归模型
步骤：
1. 确定用于统计推断的合理统计量
2. 寻求统计量的精确分布，或利用中心极限定理，给出近似分布
3. 基于该分布，求出精确解或近似解
4. 根据结果对问题进行解释。

统计量(statistics)

统计量只和样本有关，与参数无关。
常用统计量：
- 均值(sample mean)
- 方差(sample variance)
  $S 2 = 1 n - 1 \sum i n (X i - X ¯) 2$ $S^2=\frac {1}{n-1}\sum_{i}^n(X_i-\bar X)^2$
  是对单个分布方差的无偏估计 $E(S^2)=\sigma^2=Var(X)$
- 原点矩(origin moment)
  $a k = 1 n \sum X k i$ $a_k=\frac 1n\sum X_i^k$
- 中心矩(central moment)
  $m k = 1 n \sum (X i - X ¯) k$ $m_k=\frac1n\sum(X_i-\bar X)^k$
- 次序统计量(order statistics)
- 中位数(sample median)
  $m 1 2 = ⎧ ⎩ ⎨ X n + 1 2, n odd X n + X n + 1 2 n even$ $m_{\frac 12}=\begin{cases} X_{\frac {n+1}2},\text{n odd}\\ \frac{X_n+X_{n+1}}{2}\text{n even}\end{cases}$
- 经验分布(empirical distribution)
  $F_n(X)$

抽样调查

随机抽样：等可能抽取，分为有放回和无放回，当n很大是无差别。
抽样偏差：
无偏性：样本均值是对总体均值的估计
分层抽样：把总体分成互不相交的子集，对均值按照样本量加权平均。
随机对照试验，双盲试验：

非参数估计

经验分布函数：描述随机变量分布，可以常用分布函数或者密度函数代表。
用分布函数代表
- 阶梯表示
- 强相合性，以概率1收敛（弱相合性，以概率收敛）
- 要求样本量很大
用密度函数估计：直方图、核估计、最近邻估计
- 直方图估计法：用频率估计概率+小区间上概率的近似。通常等分区间，区间大小的选取……
- Rosenblatt估计

核估计法

$x$ 附近的样本点越多密度估计值越大
核函数 $K 0 (x) = 1 2 I [- 1, 1] (x)$ $K_0(x)=\frac 12I_{[-1,1]}(x)$
$p n (x) = 1 n h \sum K 0 (x - x i h)$ $p_n(x)=\frac 1{nh}\sum K_0(\frac{x-x_i}h)$
核函数一般选择偶函数，且在正半轴单调下降。
常用核函数：脉冲型、正态型、正切型、sinx/x型、三次加窗型
核估计的相合性。

参数估计

点估计：包括矩估计和最大似然估计
区间估计

估计的优良性

无偏性

无偏性：样本均值是对总体均值的估计
均值的无偏估计
x^=x¯
- 方差的无偏估计——样本方差
  $S 2 = 1 n - 1 \sum i = 1 n (x - x ¯) 2$ $S^2=\frac1{n-1}{\sum_{i=1}^n(x-\bar x)^2}$
- 相合性
  - 相合性：n充分大时最大似然估计结果与参数真值之间可以无限接近。
  有效性
  - 有效性：在一定意义下没有比最大似然估计更精确的估计（方差最小）
  渐进正态性
  
  最大似然估计
  - 似然函数
    
    $f (x 1, x 2, \dots, x n; θ 1, \dots, θ m)$ $f(x_1,x_2,\cdots,x_n;\theta_1,\cdots,\theta_m)$ 是 $x_1,\cdots,x_n$ 的似然函数，其实是参数 $\theta_1,\cdots,\theta_m$ 的函数。
  - 最大似然估计：用使似然函数取最大值的参数估计样本参数的方法。(Maximum likehood Estimates(MLE))
  - 求最大值的方法：求 $ln L_n$ 的最大值，似然方程组。
  - 指数分布的最大似然估计
    
    $λ^= 1 x ¯$ $\hat\lambda=\frac1{\bar x}$
  - 正态分布
    
    $μ^= x ¯$ $\hat \mu = \bar x$
    $δ^= 1 n \sum (x i - x ¯) 2$ $\hat \delta =\frac 1n\sum(x_i-\bar x)^2$
    后者不是无偏估计。
  - 威布尔分布
  - 均匀分布
    $a^= min (x 1, \dots, x n) = X (1), b^= max = X (n)$ $\hat a=\min(x_1,\cdots,x_n)=X_{(1)}, \\\hat b=\max=X_{(n)}$
  矩估计
  - $θ^k = f k (ν^1, \dots, ν^m)$ $\hat \theta_k=f_k(\hat \nu_1,\cdots,\hat \nu_m)$
  - 统计量：不依赖于参数的函数
  - 抽样分布：统计量的分布
  - 矩估计一定是无偏估计
  区间估计
  
  讨论正态总体的区间估计
  1. $\sigma^2$ 已知，估计 $\mu$
  
  η=E−XD(X)n−−−−−√
  
  95%置信区间 [X¯−1.96D(X)n−−−−−√,X¯+1.96D(X)n−−−−−√]
  2. σ2 未知，估计 μ
  用样本方差 S2 代替 D(X) ，不再服从正态分布，而是t分布。t分布式厚尾分布，只和 n 有关。自由度n−1
  [X¯−λS2n−−−√,X¯−λS2n−−−√],λ=Tα/2
  3. 估计 σ2
  
  η=(n−1)S2σ2
  服从卡方分布
  [λ1,λ2],λ1=χ2n−1(1−α/2)
  
  枢轴量
  1. 待估函数 $g(\theta)$ ，找优良估计 $T\to g(\theta)$
  2. 构造函数 $S(T,g(\theta))$ ，为随机变量, $s.t. S$ 的分布 $F$ 与 $\theta$ 无关，枢轴量
  3. 找到区间 $[a,b],P(S\in [a,b])=1-\alpha,a=F_{1-\alpha/2},b=F_{\alpha/2}$
  4. $A\leq g(\theta)\leq B,1-\alpha$
  S1=n−−√(X¯−μ)S=X¯−μS2n−−−√∼N(0,1),S2=(n−1)S2σ2∼χ2n−1
  
  4. 非正态分布利用中心极限定理
  样本量越大，置信区间越短。
  置信度越高，区间越长。
  - 置信度：
  - 置信区间：
  
  A发生概率 $p$ ，
  $n,A_n:A$ 发生次数
  
  An−npnpq−−−√∼N(0,1)
  
  枢轴化量
  
  p(−zα/2≤⋯≤Zα/2)=1−α