本篇博文介绍一些有用的推断工具:置信区间与假设检验。
在典型的统计问题中,我们对随机变量
X
感兴趣,但是对其pdf
- f(x) 或 p(x) 完全未知
- f(x) 或 p(x) 的形式已知,包含参数 θ ,其中 θ 可能是向量
目前考虑第二类问题,考虑几个这样的例子:
-
X
满足指数分布,
exp(θ) ,其中 θ 未知。 -
X
满足二项分布
b(n,p) ,其中 n 已知但p 未知。 -
X
满足伽玛分布
Γ(α,β) ,其中 α,β 未知。
我们经常这样描述这样的问题,随机变量
X
满足形式为
为了理解这个想法,考虑一个盒子中有
m
个球,出了标号为
考虑这种情况,盒子里有许多球但是我们不知道有多少,也就是
m
未知,那么那种情况下
接下里我们介绍两种采样方法,分别为:
有放回的采样 :我们随机选一个球记下数字后放回去,然后继续随机抽,得到的 X1,…,Xn 是互相独立的随机变量且分布相同,我们定义为随机样本。-
无放回的采样
:随意选
n
个球,如果一次选一个的话,每次选完后不放回。得到的
X1,…,Xn 不是独立的且每个 Xi 有相同的分布,这种采样类型常称为随机采样。 如果 m 远大于
n ,那么两种方法实际一样。定义1: (随机样本)随机变量 X1,…,Xn 如果互相独立且有相同的分布,那么他们构成了随机变量 X 的随机样本,我们简述为
X1,…,Xn 是 iid ;即独立同分布。令 F(x),f(x) 分别表示 X 的cdf与pdf,那么
X1,…,Xn 的联合cdf为
FX1,…,Xn(x1,…,xn)=∏i=1nF(xi)而联合pdf为
fX1,…,Xn(x1,…,xn)=∏i=1nf(xi)同样的方式可定义离散随机变量 X ,我们常使用向量符号来表示样本
X=(X1,…,Xn)′ ,接下来定义统计量。定义2: (统计量)假设n n 个随机变量
X1,X2,X3,…,Xn 是随机变量 X 分布中的一个样本,那么任何样本函数T=T(X1,…,Xn) 称为统计量。在高等课程中,我们将需要函数是博莱尔度量。
因为统计量是样本的函数,所以它也是随机变量,统计量经常是数据的总结,像统计量 T=T(X1,…,Xn) 可能包含未知参数 θ 的信息,这时候我们称统计量是 θ 的点估计量,回忆一下之前说过,如果 E(T)=θ ,那么 T 是
θ 的无偏估计,如果依概率 T→θ ,那么 T 是θ 的一致估计。一旦得到的随机样本, X1,…,Xn 的观测为 x1,…,xn ,那么值 T(x1,…,xn) 称为 θ 的点估计。那么什么是好的点估计呢?接下来我们讨论一些估计的性质,下面的实例给出了一些问题。例1: 还是考虑取球的例子, m 个球标记为
1,…,m ,假设 m 未知,为了估计m 我们需要有放回的得到随机样本,每个 Xi 的分布为 P(X=x)=1/m,x=1,…,m , m 的直观点估计量为T=max{X1,…,Xn} ,这就是 m 好的估计量,但是T 与 m 有多远呢?一种方式是考虑T 的分布, T 的支撑为{1,…,m} ,为了确定 T 的cdf,注意因为T 是 X 观测的最大时,所以事件T≤t 可以表示为
{T≤t}={X1≤t,…,Xn≤t}=∩ni=1{Xi≤t}其中 1≤t≤m ,因此根据 X1,…,Xn 是独立同分布的, T 的iid为
P[T≤t]=∏i=1nP[Xi≤t]=[P(X1≤t)]n=([t]m)n 其中 [t] 表示小于等于 t 的最大整数,因此对于
0≤t≤m
P[Tn≤t]=([t]m)n→{01t<mt=m因此 Tn→Dm ,根据前面的定理可知 Tn→Pm ,所以 Tn 是 m 的一致估计。
注意在这个问题中,
E(X¯)=(m+1)/2 ,因此 E(2X¯−1)=m ,其中 X¯=n−1∑ni=1Xi 表示样本均值,也许 2X¯−1 也是 m 的一个好的无偏估计量,如果这个满足的话,我们后面会说明T 是更好的估计量。例2: 假设 X 是随机变量,未知参数为
θ , X1,…,Xn 是 X 分布中得到随机样本,令X¯=n−1∑ni=1Xi 是样本均值,那么因为 E(X¯)=θ ,所以统计量 X¯ 是 θ 的无偏估计量,但是 X¯ 与 θ 有多远呢?之后我们会介绍一般情况下的结论,目前先考虑特殊情况,假设 X 满足正态分布N(θ,σ2) 且 σ2 已知,那么 X¯ 的分布为 N(θ,σ2/n) ,然后就可以用 X¯ 分布的知识会到问题。因为 (X¯−θ)/(σ/n‾‾√) 满足标准正态分布, N(0,1) ,所以我们有
0.954=P(−2<X¯−θσ/θ‾‾√<2)=P(X¯−2σn‾‾√<θ<X¯+2σn‾‾√)上式表明,在采样以前, θ 落在随机区间 (X¯−2σn√,X¯+2σn√) 的概率为0.954,采完样之后, θ 可能落在实际区间
(x¯−2σn‾‾√,x¯+2σn‾‾√)也可能不在,但是因为有很高的概率落在区间内即0.954,所以区间为 θ 的95.4\%置信区间,0.954=95.4\%称为置信系数。注意随着置信的增加,置信区间的长度也会增加,即增加置信意味着降低准确度,另一方面对于任意的置信系数,样本增加也会缩短置信区间。
-
无放回的采样
:随意选
n
个球,如果一次选一个的话,每次选完后不放回。得到的