总体和样本
- 总体:研究对象的全体,可以归结为一个随机变量。
- 简单随机样本:每个数据独立同分布的来自总体的一个联合分布随机变量 X=(X1,...Xn) ,简称样本。
- 样本值:样本的一个取值 x ,为向量
- 样本空间:样本的取值空间。
- 样本两重性:代表性;独立性
- 统计量:样本空间上的任何函数。
- 统计模型:样本(随机向量)(空间)及其分布(分布族) {X∼Pθ,θ∈Θ}
统计推断
- 统计推断:从总体中抽取一定大小的样本去推断总体的概率分布。
- 分为参数推断和非参数推断。
- 在统计模型下,从参数空间 Θ 中选取一个值作为参数真值的估计。
- 非参数估计只推断分布,不研究其他数字特征。
主要内容
- 估计,总体(随机变量)的数字特征‘
- 假设检验
- 回归模型
步骤:
- 确定用于统计推断的合理统计量
- 寻求统计量的精确分布,或利用中心极限定理,给出近似分布
- 基于该分布,求出精确解或近似解
- 根据结果对问题进行解释。
统计量(statistics)
统计量只和样本有关,与参数无关。
常用统计量:- 均值(sample mean)
- 方差(sample variance)
S2=1n−1∑in(Xi−X¯)2
是对单个分布方差的无偏估计 E(S2)=σ2=Var(X) - 原点矩(origin moment)
ak=1n∑Xki - 中心矩(central moment)
mk=1n∑(Xi−X¯)k - 次序统计量(order statistics)
- 中位数(sample median)
m12=⎧⎩⎨Xn+12,n oddXn+Xn+12n even - 经验分布(empirical distribution)
Fn(X)
抽样调查
- 随机抽样:等可能抽取,分为有放回和无放回,当n很大是无差别。
- 抽样偏差:
- 无偏性:样本均值是对总体均值的估计
- 分层抽样:把总体分成互不相交的子集,对均值按照样本量加权平均。
- 随机对照试验,双盲试验:
非参数估计
- 经验分布函数:描述随机变量分布,可以常用分布函数或者密度函数代表。
- 用分布函数代表
- 阶梯表示
- 强相合性,以概率1收敛(弱相合性,以概率收敛)
- 要求样本量很大
- 用密度函数估计:直方图、核估计、最近邻估计
- 直方图估计法:用频率估计概率+小区间上概率的近似。通常等分区间,区间大小的选取……
- Rosenblatt估计
核估计法
- x 附近的样本点越多密度估计值越大
- 核函数
K0(x)=12I[−1,1](x)
pn(x)=1nh∑K0(x−xih) - 核函数一般选择偶函数,且在正半轴单调下降。
- 常用核函数:脉冲型、正态型、正切型、sinx/x型、三次加窗型
- 核估计的相合性。
最近邻估计
固定 x 邻域内需要的样本点数,改变区间长度
参数估计
- 点估计:包括矩估计和最大似然估计
- 区间估计
估计的优良性
无偏性
- 无偏性:样本均值是对总体均值的估计
- 均值的无偏估计
x^=x¯ - 方差的无偏估计——样本方差
S2=1n−1∑i=1n(x−x¯)2 相合性
- 相合性:n充分大时最大似然估计结果与参数真值之间可以无限接近。
有效性
- 有效性:在一定意义下没有比最大似然估计更精确的估计(方差最小)
渐进正态性
最大似然估计
似然函数
f(x1,x2,⋯,xn;θ1,⋯,θm)是 x1,⋯,xn 的似然函数,其实是参数 θ1,⋯,θm 的函数。最大似然估计:用使似然函数取最大值的参数估计样本参数的方法。(Maximum likehood Estimates(MLE))
求最大值的方法:求 lnLn 的最大值,似然方程组。
指数分布的最大似然估计
λ^=1x¯正态分布
μ^=x¯
δ^=1n∑(xi−x¯)2
后者不是无偏估计。威布尔分布
- 均匀分布
a^=min(x1,⋯,xn)=X(1),b^=max=X(n)
矩估计
-
θ^k=fk(ν^1,⋯,ν^m)
- 统计量:不依赖于参数的函数
- 抽样分布:统计量的分布
- 矩估计一定是无偏估计
区间估计
讨论正态总体的区间估计
1. σ2 已知,估计 μ
η=E−XD(X)n−−−−−√
95%置信区间 [X¯−1.96D(X)n−−−−−√,X¯+1.96D(X)n−−−−−√]
2. σ2 未知,估计 μ
用样本方差 S2 代替 D(X) ,不再服从正态分布,而是t分布。t分布式厚尾分布,只和 n 有关。自由度n−1
[X¯−λS2n−−−√,X¯−λS2n−−−√],λ=Tα/2
3. 估计 σ2
η=(n−1)S2σ2服从卡方分布
[λ1,λ2],λ1=χ2n−1(1−α/2)枢轴量
- 待估函数 g(θ) ,找优良估计 T→g(θ)
- 构造函数
S(T,g(θ))
,为随机变量,
s.t.S
的分布
F
与
θ 无关,枢轴量 - 找到区间 [a,b],P(S∈[a,b])=1−α,a=F1−α/2,b=Fα/2
- A≤g(θ)≤B,1−α
S1=n−−√(X¯−μ)S=X¯−μS2n−−−√∼N(0,1),S2=(n−1)S2σ2∼χ2n−1
4. 非正态分布利用中心极限定理
样本量越大,置信区间越短。
置信度越高,区间越长。
- 置信度:
- 置信区间:A发生概率 p ,
n,An:A 发生次数
An−npnpq−−−√∼N(0,1)
枢轴化量
p(−zα/2≤⋯≤Zα/2)=1−α
- 方差的无偏估计——样本方差