概率论与数理统计笔记(第五章——统计量及其分布)
对于统计专业来说,书本知识总有遗忘,翻看教材又太麻烦,于是打算记下笔记与自己的一些思考,主要参考用书是茆诗松老师编写的《概率论与数理统计教程》,其他知识待后续书籍补充。
第五章 统计量及其分布
5.1 总体与样本
5.1.1 总体与个体
在一个统计问题中, 我们把研究对象的全体称为总体, 构成总体的每个成员称为个体.
5.1.2 样本
为了了解总体的分布, 我们从总体中随机地抽取 n n n 个个体, 记其指标值为 x 1 , x 2 , ⋯ , x n x_1, x_2, \cdots, x_n x1,x2,⋯,xn, 则 x 1 , x 2 , ⋯ , x n x_1, x_2, \cdots, x_n x1,x2,⋯,xn 称为总体的一个样本, n n n 称为样本容量, 或简称样本量, 样本中的个体称为样品.
从总体中抽取样本可以有不同的抽法, 为了能由样本对总体作出较可靠的推断, 就希望样本能很好地代表总体. 这就需要对抽样方法提出一些要求, 最常用的“简单随机抽样”有如下两个要求:
- 样本具有随机性, 即要求总体中每一个个体都有同等机会被选人样本, 这便意味着每一样品 x i x_i xi 与总体 X X X 有相同的分布.
- 样本要有独立性, 即要求样本中每一样品的取值不影晌其他样品的取值,这意味着 x 1 , x 2 , ⋯ , x n x_1, x_2, \cdots, x_n x1,x2,⋯,xn 相互独立.
用简单随机抽样方法得到的样本称为简单随机样本, 也简称样本. 除非特别指明, 本书中的样本皆为简单随机样本. 于是, 样本 x 1 , x 2 , ⋯ , x n x_1, x_2, \cdots, x_n x1,x2,⋯,xn 可以看成是相互独立的具有同一分布的随机变量, 又称为 i.i.d 样本, 其共同分布即为总体分布.
设总体 X X X 具有分布函数 F ( x ) , x 1 , x 2 , ⋯ , x n F(x), x_1, x_2, \cdots, x_n F(x),x1,x2,⋯,xn 为取自该总体的容量为 n n n 的样本, 则样本联合分布函数为
F ( x 1 , x 2 , ⋯ , x n ) = ∏ i = 1 n F ( x i ) . F\left(x_1, x_2, \cdots, x_n\right)=\prod_{i=1}^n F\left(x_i\right) . F(x1,x2,⋯,xn)=i=1∏nF(xi).
5.2 样本数据的整理与显示
5.2.1 经验分布函数
设 x 1 , x 2 , ⋯ , x n x_1, x_2, \cdots, x_n x1,x2,⋯,xn 是取自总体分布函数为 F ( x ) F(x) F(x) 的样本, 若将样本观测值由小到大进行排列, 为 x ( 1 ) , x ( 2 ) , ⋯ , x ( n ) x_{(1)}, x_{(2)}, \cdots, x_{(n)} x(1),x(2),⋯,x(n), 则 x ( 1 ) , x ( 2 ) , ⋯ , x ( n ) x_{(1)}, x_{(2)}, \cdots, x_{(n)} x(1),x(2),⋯,x(n) 称为有序样本, 用有序样本定义如下函数
F n ( x ) = { 0 , 当 x < x ( 1 ) , k / n , 当 x ( k ) ⩽ x < x ( k + 1 ) , k = 1 , 2 , ⋯ , n − 1 , 1 , 当 x ⩾ x ( n ) , F_n(x)= \begin{cases}0, & \text { 当 } x<x_{(1)}, \\ k / n, & \text { 当 } x_{(k)} \leqslant x<x_{(k+1)}, k=1,2, \cdots, n-1, \\ 1, & \text { 当 } x \geqslant x_{(n)},\end{cases} Fn(x)=⎩⎪⎨⎪⎧0,k/n,1, 当 x<x(1), 当 x(k)⩽x<x(k+1),k=1,2,⋯,n−1, 当 x⩾x(n),
则 F n ( x ) F_n(x) Fn(x) 是一非减右连续函数, 且满足
F n ( − ∞ ) = 0 和 F n ( ∞ ) = 1. F_n(-\infty)=0 \text { 和 } F_n(\infty)=1 . Fn(−∞)=0 和 Fn(∞)=1.
由此可见, F n ( x ) F_n(x) Fn(x) 是一个分布函数, 并称 F n ( x ) F_n(x) Fn(x) 为经验分布函数.
定理 5.2.1 (格里纹科定理) 设 x 1 , x 2 , ⋯ , x n x_1, x_2, \cdots, x_n x1,x2,⋯,xn 是取自总体分布函数为 F ( x ) F(x) F(x) 的样本, F n ( x ) F_n(x) Fn(x) 是其经验分布函数, 当 n → ∞ n \rightarrow \infty n→∞ 时, 有
P ( sup − ∞ < x < ∞ ∣ F n ( x ) − F ( x ) ∣ → 0 ) = 1. P\left(\sup _{-\infty<x<\infty}\left|F_n(x)-F(x)\right| \rightarrow 0\right)=1 . P(−∞<x<∞sup∣Fn(x)−F(x)∣→0)=1.
定理 5.2.1 表明,当 n n n 相当大时,经验分布函数是总体分布函数 F ( x ) F(x) F(x) 的一 个良好的近似. 经典统计学中一切统计推断都以样本为依据, 其理由就在于此.
5.2.2 频数频率分布表
样本数据的整理是统计研究的基础,整理数据的最常用方法之一是给出其频数分布表或频率分布表. 具体步骤如下:
- (1) 对样本进行分组. 首先确定组数 k k k, 作为一般性的原则, 组数通常在 5 ∼ 20 5 \sim 20 5∼20 个, 对容量较小的样本, 通常将其分为 5 组或 6 组, 容量为 100 左右的样本可分 7 到 10 组,容量为 200 左右的样本可分 9 到 13 组, 容量为 300 左右及以上的样本可分 12 到 20 组, 目的是使用足够的组来表示数据的变异. \
- (2) 确定每组组距. 每组区间长度可以相同也可以不同, 实用中常选用长度相同的区间以便于进行比较, 此时各组区间的长度称为组距, 其近似公式为
组距 d = d= d= (样本最大观测值 - 样本最小观测值) / / / 组数. - (3) 确定每组组限. 各组区间端点为 a 0 , a 0 + d = a 1 , a 0 + 2 d = a 2 , ⋯ , a 0 + k d = a_0, a_0+d=a_1, a_0+2 d=a_2, \cdots, a_0+k d= a0,a0+d=a1,a0+2d=a2,⋯,a0+kd= a k a_k ak,形成如下的分组区间
( a 0 , a 1 ] , ( a 1 , a 2 ] , ⋯ , ( a k − 1 , a k ] , \left(a_0, a_1\right],\left(a_1, a_2\right], \cdots,\left(a_{k-1}, a_k\right], (a0,a1],(a1,a2],⋯,(ak−1,ak],
其中 a 0 a_0 a0 略小于最小观测值, a 4 a_4 a4 略大于最大观测值。
通常可用每组的组中值来代表该组的变量取值, 组中值 = = = (组上限 + + + 组下限) / 2 / 2 /2. - (4) 统计样本数据落入每个区间的个数一一频数, 并列出其频数频率分布表.
5.2.3 样本数据的图形显示
前面我们介绍了频数频率分布的表格形式, 它也可以用图形表示, 这在许多场合更直观.
一、直方图
频数分布最常用的图形表示是直方图, 它在组距相等场合常用宽度相等的长条矩形表示, 矩形的高低表示频数的大小.若把纵轴改成频率就得到频率直方图.为使诸长条矩形面积和为 1 , 可将纵 轴取为频率/组距, 如此得到的直方图称为单位频率直方图, 或简称频率直方图. 凡此三种直方图的差别仅在于纵轴刻度的选择, 直方图本身并无变化.
二、茎叶图
我们用数据给出一个茎叶图. 把每一个数值分为两部分, 前面一部分 (百位和十位) 称为茎, 后面部分 (个位) 称为叶, 然后画一条坚线, 在坚线的左侧写上茎,右侧写上叶, 就形成了茎叶图. 然后画一条坚线, 在坚线的左侧写上茎,右侧写上叶, 就形成了茎叶图.
茎叶图的外观很像横放的直方图, 但茎叶图中叶增加了具体的数值, 使我们对数据的具体取值一目了然,从而保留了数据中全部的信息; 在要比较两组样本时, 可画出它们的背靠背的茎叶图, 这是一个简单直观而有效的对比方法.
5.3 统计量及其分布
5.3.1 统计量与抽样分布
定义 5.3.1
设 x 1 , x 2 , ⋯ , x n x_1, x_2, \cdots, x_n x1,x2,⋯,xn 为取自某总体的样本, 若样本函数 T = T= T= T ( x 1 , x 2 , ⋯ , x n ) T\left(x_1, x_2, \cdots, x_n\right) T(x1,x2,⋯,xn) 中不含有任何末知参数, 则称 T T T 为统计量. 统计量的分布称为抽样分布.
5.3.2 样本均值及其抽样分布
定义 5.3.2
设 x 1 , x 2 , ⋯ , x n x_1, x_2, \cdots, x_n x1,x2,⋯,xn 为取自某总体的样本, 其算术平均值称为样本均值, 一般用 x ˉ \bar{x} xˉ 表示, 即
x ˉ = x 1 + ⋯ + x n n = 1 n ∑ i = 1 n x i . \bar{x}=\frac{x_1+\cdots+x_n}{n}=\frac{1}{n} \sum_{i=1}^n x_i . xˉ=nx1+⋯+xn=n1i=1∑nxi.
在分组样本场合, 样本均值的近似公式为
x ˉ = x 1 f 1 + ⋯ + x k f k n ( n = ∑ i = 1 k f i ) . \bar{x}=\frac{x_1 f_1+\cdots+x_k f_k}{n} \quad\left(n=\sum_{i=1}^k f_i\right) . xˉ=nx1f1+⋯+xkfk(n=i=1∑kfi).
其中 k k k 为组数, x i x_i xi 为第 i i i 组的组中值, f i f_i fi 为第 i i i 组的频数.
关于样本均值, 有如下几个性质.
定理 5.3.1 若把样本中的数据与样本均值之差称为偏差, 则样本所有偏差之和为 0 , 即 ∑ i = 1 n ( x i − x ˉ ) = 0 \sum_{i=1}^n\left(x_i-\bar{x}\right)=0 ∑i=1n(xi−xˉ)=0.
定理 5.3.2 数据观测值与均值的偏差平方和最小, 即在形如 Σ (