样本既然是随机变量, 就有一定的概率分布, 这个概率分布就叫作样本分布. 样本分布是样本所受随机性影响的最完整的描述.
我们知道样本是由总体中抽取的一部分个体组成.
要决定样本分布, 就要根据观察值的具体指标的性质 (这往往涉及有关的专业知识), 以及对抽样方式和对试验进行的方式的了解, 此外常常还必须加一些人为的假定
X
=
(
X
1
,
⋯
,
X
n
)
X=\left(X_{1}, \cdots, X_{n}\right)
X=(X1,⋯,Xn)取可能取值的全体成为样本空间 , 记为
X
\mathcal{X}
X
样本的两重性和简单随机样本
样本的两重性是说, 样本既可看成具体的数, 又可以看成随机变量 (或随机向量). 在完成抽样后,它是具体的数;在实施抽样前,它被看成随机变量. 因为在实施具体抽样之前无法预料抽样的结果, 只能预料它可能取值的范围, 故可把它看成一个随机变量,因此才有概率分布可言。为区别起见, 今后用大写的英文字母表示随机变量或随机向量, 用小写字母表示具体的观察值.对理论工作者, 更重视样本是随机变量这一点, 而对应用工作者虽则将样本看成具体的数字, 但仍不可忽视样本是随机变量 (或随机向量) 这一背景. 否则, 样本就是一堆杂乱无章毫无规律可言的数字,无法进行任何统计处理. 样本既然是随机变量 (或随机向量), 就有分布而言, 这样才存在统计推断问题.简单随机样本:样本具有随机性,独立性
抽样是指从总体中按一定方式抽取样本的行为. 抽样的目的是通过取得的样本对总体分布中的某些未知因素做出推断, 为了使抽取的样本能很好的反映总体的信息, 必须考虑抽样方法. 最常用的一种抽样方法叫作 “简单随机抽样”, 它要求满足下列两条:
(1) 代表性. 总体中的每一个体都有同等机会被抽入样本, 这意味着样本中每个个体与所考察的总体具有相同分布. 因此, 任一样本中的个体都具有代表性.
(2) 独立性. 样本中每一个体取什么值并不影响其它个体取什么值. 这意味着, 样本中各个体 X 1 ,X 2 ,··· ,X n 是相互独立的随机变量
E
X
1
:
\mathcal{EX1:}
EX1:
一大批产品共有
N
N
N 个, 其中废品 M 个,
N
N
N已知, 而 M 未知. 现在从中抽出
n
n
n 个加以检验, 用以估计 M 或废品率
p
=
M
N
p = \frac{M}{N}
p=NM
(1) 有放回抽样, 即每次抽样后记下结果, 然后将其放回去, 再抽第二个, 直到抽完
n
n
n个为止. 求样本分布.
(2) 不放回抽样, 即一次抽一个, 依次抽取, 直到抽完
n
n
n 个为止.求样本分布.
P ( X i = 1 ) = M / N , P ( X i = 0 ) = ( N − M ) / N P\left(X_{i}=1\right)=M / N, P\left(X_{i}=0\right)=(N-M)/N P(Xi=1)=M/N,P(Xi=0)=(N−M)/N
P ( X 1 = x 1 , ⋯ , X n = x n ) = ( M N ) a ( N − M N ) n − a P\left(X_{1}=x_{1}, \cdots, X_{n}=x_{n}\right)=\left(\frac{M}{N}\right)^{a}\left(\frac{N-M}{N}\right)^{n-a} P(X1=x1,⋯,Xn=xn)=(NM)a(NN−M)n−a
x 1 , … , x n x_1,\dots,x_n x1,…,xn都为0或者1, ∑ i = 1 n x i = a \sum\limits_{i=1}^{n}x_i=a i=1∑nxi=a(样本随机独立)
采用不放回抽样,
∑ i = 1 n x i = a \sum\limits_{i=1}^{n}x_i=a i=1∑nxi=a, x 1 , … , x n x_1,\dots,x_n x1,…,xn都为0或者1
P
(
X
1
=
x
1
,
X
2
=
x
2
,
⋯
,
X
n
=
x
n
)
P\left(X_{1}=x_{1}, X_{2}=x_{2}, \cdots, X_{n}=x_{n}\right)
P(X1=x1,X2=x2,⋯,Xn=xn)
=
M
N
⋅
M
−
1
N
−
1
⋯
M
−
a
+
1
N
−
a
+
1
⏟
x
i
=
1
⋅
N
−
M
N
−
a
⋯
N
−
M
−
n
+
a
+
1
N
−
n
+
1
⏟
x
i
=
0
=\underbrace{\frac{M}{N} \cdot \frac{M-1}{N-1} \cdots \frac{M-a+1}{N-a+1} }_{x_i=1}\cdot \underbrace{\frac{N-M}{N-a} \cdots \frac{N-M-n+a+1}{N-n+1}}_{x_i=0}
=xi=1
NM⋅N−1M−1⋯N−a+1M−a+1⋅xi=0
N−aN−M⋯N−n+1N−M−n+a+1(随机不独立)
E X 2 : \mathcal{EX2:} EX2:
为估计一物件的重量 a, 用一架天平将它重复称 n 次, 结果记为 X 1 , ⋯ , X n X_{1}, \cdots, X_{n} X1,⋯,Xn , 求样本 X 1 , ⋯ , X n X_{1}, \cdots, X_{n} X1,⋯,Xn 的联合分布.
(1) 假定各次称重是独立进行的, 即某次称重结果不受其它次称重结果的影响. 这样
X
1
,
⋯
,
X
n
X_{1}, \cdots, X_{n}
X1,⋯,Xn就可以认为是相互独立的随机变量.
(2) 假定各次称重是在 “相同条件” 下进行的, 可理解为每次用同一天平, 每次称重由同一人操作, 且周围环境 (如温度、湿度等)都相同. 在这个假定下, 可认为
X
1
,
⋯
,
X
n
X_{1}, \cdots, X_{n}
X1,⋯,Xn 是同分布的. 在上述两个假定下,
X
1
,
⋯
,
X
n
X_{1}, \cdots, X_{n}
X1,⋯,Xn 是 n 个独立同分布的随机变量, 即为简单随机样本.
由概率论中的中心极限定理可知这种误差近似服从正态分布. 再假定天平没有系统误差, 则可进一步假定此误差为均值为 0 的正态分布. 可以把X 1 (它可视为物重 a 加上称量误差之和) 的概率分布为 N ( a , σ 2 ) N\left(a, \sigma^{2}\right) N(a,σ2)
f ( x 1 , ⋯ , x n ) = ( 2 π σ ) − n exp { − 1 2 σ 2 ∑ i = 1 n ( x i − a ) 2 } f\left(x_{1}, \cdots, x_{n}\right)=(\sqrt{2 \pi} \sigma)^{-n} \exp \left\{-\frac{1}{2 \sigma^{2}} \sum_{i=1}^{n}\left(x_{i}-a\right)^{2}\right\} f(x1,⋯,xn)=(2πσ)−nexp{−2σ21∑i=1n(xi−a)2}
正态总体样本均值和样本方差的分布
设随机变量 X 1 , ⋯ , X n i . i . d . ∼ N ( a , σ 2 ) , c 1 , c 2 , ⋯ , c n X_{1}, \cdots, X_{n} i.i.d. \sim N\left(a, \sigma^{2}\right), \quad c_{1}, c_{2}, \cdots, c_{n} X1,⋯,Xni.i.d.∼N(a,σ2),c1,c2,⋯,cn为常数
T = ∑ k = 1 n c k X k ∼ N ( a ∑ k = 1 n c k , σ 2 ∑ k = 1 n c k 2 ) T=\sum\limits_{k=1}^{n} c_{k} X_{k} \sim N\left(a \sum_{k=1}^{n} c_{k}, \sigma^{2} \sum_{k=1}^{n} c_{k}^{2}\right) T=k=1∑nckXk∼N(a∑k=1nck,σ2∑k=1nck2)
c 1 = ⋯ = c n = 1 / n , T = 1 n ∑ i = 1 n X i = X ˉ c_{1}=\cdots=c_{n}=1 / n,T=\frac{1}{n} \sum_{i=1}^{n} X_{i}=\bar{X} c1=⋯=cn=1/n,T=n1∑i=1nXi=Xˉ
X ˉ ∼ N ( a , σ 2 / n ) \bar{X} \sim N\left(a, \sigma^{2} / n\right) Xˉ∼N(a,σ2/n)