概率论与数理统计教程(五)-统计量及其分布05:充分统计量

本文介绍了概率论与数理统计中的充分统计量概念,通过实例展示了如何利用充分统计量简化样本并保留关键信息。充分统计量在统计推断中起到重要作用,因为它在已知取值后能包含所有关于参数的信息。文中通过二点分布和正态分布的例子解释了充分统计量的性质,并应用因子分解定理判断统计量是否充分。
摘要由CSDN通过智能技术生成

§5.5 充分统计量
5.5.1 充分性的概念
构造统计量就是对样本进行加工, 去粗取精, 简化样本, 便于统计推断. 但在加工
过程中是否会丢失样本中关于感兴趣问题的信息?
如果某个统计量包含了样本中关于感兴趣问题的所有信息,则这个统计量对将来的统计推断会非常有用,这就是充分统计量的直观含义,
它是费希尔于 1922 年正式提出的, 而其思想则源于他与天文学家埃丁顿
(Eddington) 的有关估计标准差的争论中. 设 x 1 , x 2 , ⋯   , x n x_{1}, x_{2}, \cdots, x_{n} x1,x2,,xn
为来自 N ( μ , σ 2 ) N\left(\mu, \sigma^{2}\right) N(μ,σ2) 的独立同分布样本, 现要估计
σ \sigma σ. 费希尔主张用样本标准差 s s s, 而埃丁顿则主张用如下的平均绝对偏差
d = π 2 1 n ∑ i = 1 n ∣ x i − x ˉ ∣ . d=\sqrt{\frac{\pi}{2}} \frac{1}{n} \sum_{i=1}^{n}\left|x_{i}-\bar{x}\right| . d=2π n1i=1nxixˉ.
费希尔认为 “在 s s s 中包含了样本中有关 σ \sigma σ 的全部信息, 而 d d d 则否”,
换句话说, s s s 是充分统计量,而 d d d 不是,故应选用 s s s.
在给出充分统计量的严格定义之前, 我们先看一个例子.
例 5.5.1 为研究某个运动员的打靶命中率 θ \theta θ, 我们对该运动员进行测试,
观测其 10 次打靶结果, 发现除第 3.6 次未命中外, 其余 8 次都命中.
这样的观测结果包含了两种信息:
(1) 打靶 10 次命中 8 次;
(2) 2 次不命中分别出现在第 3 次和第 6 次打靶上.
第二种信息 (序号) 对了解该运动员的命中率是没有什么帮助的:
设想我们对该运动员的观测结果是第 1.2 次未命中, 其余都命中,
虽然样本观测值是不一样的, 但它们提供的关于命中率 θ \theta θ
的信息是一样的. 因此, 在大多数实际问题中,
试验编号信息常常对了解总体或其参数是无关紧要的.
一般地, 设我们对该运动员进行 n n n 次观测, 得到
x 1 , x 2 , ⋯   , x n x_{1}, x_{2}, \cdots, x_{n} x1,x2,,xn, 每个 x i x_{i} xi 取值非 0 即 1 , 命中为 1 ,
不命中为 0 , 令 T = x 1 + x 2 + ⋯ + x n , T T=x_{1}+x_{2}+\cdots+x_{n}, T T=x1+x2++xn,T 为观测到的命中次数,
在这种场合仅仅记录、使用 T T T 不会丢失任何与命中率 θ \theta θ 有关的信息,
统计上将这种 “样本加工不损失信息"称为"充分性”.
上面我们直观地给出了关于 “充分性” 的叙述,
接下来我们从概率层面对之进行分析. 我们知道, 样本
X = ( x 1 , x 2 , ⋯   , x n ) X=\left(x_{1}, x_{2}, \cdots, x_{n}\right) X=(x1,x2,,xn) 有一个样本联合分布
F θ ( X ) F_{\theta}(X) Fθ(X), 这个分布包含了样本中一切有关 θ \theta θ 的信息. 统计量
T = T ( x 1 , x 2 , ⋯   , x n ) T=T\left(x_{1}, x_{2}, \cdots, x_{n}\right) T=T(x1,x2,,xn) 也有一个抽样分布
F θ T ( t ) F_{\theta}^{T}(t) FθT(t), 当我们期望用统计量 T T T 代替原始样本 X X X
并且不损失任何有关 θ \theta θ 的信息时, 也就是期望抽样分布
F θ T ( t ) F_{\theta}^{T}(t) FθT(t) F θ ( X ) F_{\theta}(X) Fθ(X) 一样概括了有关 θ \theta θ
的一切信息. 换言之, 我们考察在统计量 T T T 的取值为 t t t的情况下样本 X X X
的条件分布 F θ ( X ∣ T = t ) F_{\theta}(X \mid T=t) Fθ(XT=t), 可能有两种情况:
- F θ ( X ∣ T = t ) F_{\theta}(X \mid T=t) Fθ(XT=t) 依赖于参数 θ \theta θ, 此条件分布仍含有
θ \theta θ 的信息.
- F θ ( X ∣ T = t ) F_{\theta}(X \mid T=t) Fθ(XT=t) 不依赖于参数 θ \theta θ,此条件分布已不含
θ \theta θ 的信息.
后者表明, 条件 " T = t T=t T=t " 的出现使得从样本联合分布 F θ ( X ) F_{\theta}(X) Fθ(X)
到条件分布 F θ ( X ∣ T = t ) F_{\theta}(X \mid T=t) Fθ(XT=t), 有关 θ \theta θ 的信息消失了,
这说明有关 θ \theta θ 的信息都含在统计量 T T T 之中. 当已知统计量 T T T
的取值之后, 也就知道了样本中关于 θ \theta θ 的所有信息,
这正是统计量具有充分性的含义.
例 5.5 .2 设总体为二点分布 b ( 1 , θ ) , X 1 , X 2 , ⋯   , X n b(1, \theta), X_{1}, X_{2}, \cdots, X_{n} b(1,θ),X1,X2,,Xn
为样本, 令 T = X 1 + X 2 + ⋯ + X n T=X_{1}+X_{2}+\cdots+X_{n} T=X1+X2++Xn,则在给定 T T T 的取值后,
对任意的一组
x 1 , x 2 , ⋯   , x n ( ∑ i = 1 n x i = t ) x_{1}, x_{2}, \cdots, x_{n}\left(\sum_{i=1}^{n} x_{i}=t\right) x1,x2,,xn(i=1nxi=t), 有
P ( X 1 = x 1 , X 2 = x 2 , ⋯   , X n = x n ∣ T = t ) = P ( X 1 = x 1 , X 2 = x 2 , ⋯   , X n − 1 = x n − 1 , X n = t − ∑ i = 1 n − 1 x i ) P ( ∑ i = 1 n X i = t ) = ∏ i = 1 n − 1 P ( X i = x i ) ⋅ P ( X n = t − ∑ i = 1 n − 1 x i ) ( n t ) θ i ( 1 − θ ) n − t = ∏ i = 1 n − 1 θ x i ( 1 − θ ) 1 − x i ⋅ θ t − ∑ i = 1 n − 1 x i ( 1 − θ ) 1 − i + ∑ i = 1 n − 1 x i θ n t n θ t ( 1 − θ ) n − t = θ i ( 1 − θ ) n − t ( n t ) θ i ( 1 − θ ) n − t = 1 ( n t ) \begin{aligned} & P\left(X_{1}=x_{1}, X_{2}=x_{2}, \cdots, X_{n}=x_{n} \mid T=t\right) \\ = & \frac{P\left(X_{1}=x_{1}, X_{2}=x_{2}, \cdots, X_{n-1}=x_{n-1}, X_{n}=t-\sum_{i=1}^{n-1} x_{i}\right)}{P\left(\sum_{i=1}^{n} X_{i}=t\right)} \\ = & \frac{\prod_{i=1}^{n-1} P\left(X_{i}=x_{i}\right) \cdot P\left(X_{n}=t-\sum_{i=1}^{n-1} x_{i}\right)}{\left(\begin{array}{l} n \\ t \end{array}\right) \theta^{i}(1-\theta)^{n-t}} \\ = & \frac{\prod_{i=1}^{n-1} \theta^{x_{i}}(1-\theta)^{1-x_{i}} \cdot \theta^{t-\sum_{i=1}^{n-1} x_{i}}(1-\theta)^{1-i+\sum_{i=1}^{n-1} x_{i}}}{\theta^{n} t^{n} \theta^{t}(1-\theta)^{n-t}} \\ = & \frac{\theta^{i}(1-\theta)^{n-t}}{\left(\begin{array}{l} n \\ t \end{array}\right) \theta^{i}(1-\theta)^{n-t}}=\frac{1}{\left(\begin{array}{l} n \\ t \end{array}\right)} \end{aligned} ====P(X1=x1,X2=x2,,Xn=xnT=t)P(i=1nXi=t)P(X1=x1,X2=x2,,Xn1=xn1,Xn=ti=1n1xi)(nt)θi(1θ)nti=1n1P(Xi=xi)P(Xn=ti=1n1xi)θntnθt(1θ)nti=1n1θxi(1θ)1xiθti=1n1xi(1θ)1i+i=1n1xi(nt)θi(1θ)ntθi(1θ)nt=(nt

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值