概率论与数理统计系列笔记之第五章——统计量及其分布

概率论与数理统计笔记(第五章——统计量及其分布)

对于统计专业来说,书本知识总有遗忘,翻看教材又太麻烦,于是打算记下笔记与自己的一些思考,主要参考用书是茆诗松老师编写的《概率论与数理统计教程》,其他知识待后续书籍补充。

第五章 统计量及其分布

5.1 总体与样本

5.1.1 总体与个体

在一个统计问题中, 我们把研究对象的全体称为总体, 构成总体的每个成员称为个体.

5.1.2 样本

为了了解总体的分布, 我们从总体中随机地抽取 n n n 个个体, 记其指标值为 x 1 , x 2 , ⋯   , x n x_1, x_2, \cdots, x_n x1,x2,,xn, 则 x 1 , x 2 , ⋯   , x n x_1, x_2, \cdots, x_n x1,x2,,xn 称为总体的一个样本, n n n 称为样本容量, 或简称样本量, 样本中的个体称为样品.

从总体中抽取样本可以有不同的抽法, 为了能由样本对总体作出较可靠的推断, 就希望样本能很好地代表总体. 这就需要对抽样方法提出一些要求, 最常用的“简单随机抽样”有如下两个要求:

  • 样本具有随机性, 即要求总体中每一个个体都有同等机会被选人样本, 这便意味着每一样品 x i x_i xi 与总体 X X X 有相同的分布.
  • 样本要有独立性, 即要求样本中每一样品的取值不影晌其他样品的取值,这意味着 x 1 , x 2 , ⋯   , x n x_1, x_2, \cdots, x_n x1,x2,,xn 相互独立.
    用简单随机抽样方法得到的样本称为简单随机样本, 也简称样本. 除非特别指明, 本书中的样本皆为简单随机样本. 于是, 样本 x 1 , x 2 , ⋯   , x n x_1, x_2, \cdots, x_n x1,x2,,xn 可以看成是相互独立的具有同一分布的随机变量, 又称为 i.i.d 样本, 其共同分布即为总体分布.

设总体 X X X 具有分布函数 F ( x ) , x 1 , x 2 , ⋯   , x n F(x), x_1, x_2, \cdots, x_n F(x),x1,x2,,xn 为取自该总体的容量为 n n n 的样本, 则样本联合分布函数
F ( x 1 , x 2 , ⋯   , x n ) = ∏ i = 1 n F ( x i ) . F\left(x_1, x_2, \cdots, x_n\right)=\prod_{i=1}^n F\left(x_i\right) . F(x1,x2,,xn)=i=1nF(xi).

5.2 样本数据的整理与显示

5.2.1 经验分布函数

x 1 , x 2 , ⋯   , x n x_1, x_2, \cdots, x_n x1,x2,,xn 是取自总体分布函数为 F ( x ) F(x) F(x) 的样本, 若将样本观测值由小到大进行排列, 为 x ( 1 ) , x ( 2 ) , ⋯   , x ( n ) x_{(1)}, x_{(2)}, \cdots, x_{(n)} x(1),x(2),,x(n), 则 x ( 1 ) , x ( 2 ) , ⋯   , x ( n ) x_{(1)}, x_{(2)}, \cdots, x_{(n)} x(1),x(2),,x(n) 称为有序样本, 用有序样本定义如下函数
F n ( x ) = { 0 ,  当  x < x ( 1 ) , k / n ,  当  x ( k ) ⩽ x < x ( k + 1 ) , k = 1 , 2 , ⋯   , n − 1 , 1 ,  当  x ⩾ x ( n ) , F_n(x)= \begin{cases}0, & \text { 当 } x<x_{(1)}, \\ k / n, & \text { 当 } x_{(k)} \leqslant x<x_{(k+1)}, k=1,2, \cdots, n-1, \\ 1, & \text { 当 } x \geqslant x_{(n)},\end{cases} Fn(x)=0,k/n,1,  x<x(1),  x(k)x<x(k+1),k=1,2,,n1,  xx(n),
F n ( x ) F_n(x) Fn(x) 是一非减右连续函数, 且满足
F n ( − ∞ ) = 0  和  F n ( ∞ ) = 1. F_n(-\infty)=0 \text { 和 } F_n(\infty)=1 . Fn()=0  Fn()=1.
由此可见, F n ( x ) F_n(x) Fn(x) 是一个分布函数, 并称 F n ( x ) F_n(x) Fn(x) 为经验分布函数.

定理 5.2.1 (格里纹科定理) x 1 , x 2 , ⋯   , x n x_1, x_2, \cdots, x_n x1,x2,,xn 是取自总体分布函数为 F ( x ) F(x) F(x) 的样本, F n ( x ) F_n(x) Fn(x) 是其经验分布函数, 当 n → ∞ n \rightarrow \infty n 时, 有
P ( sup ⁡ − ∞ < x < ∞ ∣ F n ( x ) − F ( x ) ∣ → 0 ) = 1. P\left(\sup _{-\infty<x<\infty}\left|F_n(x)-F(x)\right| \rightarrow 0\right)=1 . P(<x<supFn(x)F(x)0)=1.

定理 5.2.1 表明,当 n n n 相当大时,经验分布函数是总体分布函数 F ( x ) F(x) F(x) 的一 个良好的近似. 经典统计学中一切统计推断都以样本为依据, 其理由就在于此.

5.2.2 频数频率分布表

样本数据的整理是统计研究的基础,整理数据的最常用方法之一是给出其频数分布表或频率分布表. 具体步骤如下:

  • (1) 对样本进行分组. 首先确定组数 k k k, 作为一般性的原则, 组数通常在 5 ∼ 20 5 \sim 20 520 个, 对容量较小的样本, 通常将其分为 5 组或 6 组, 容量为 100 左右的样本可分 7 到 10 组,容量为 200 左右的样本可分 9 到 13 组, 容量为 300 左右及以上的样本可分 12 到 20 组, 目的是使用足够的组来表示数据的变异. \
  • (2) 确定每组组距. 每组区间长度可以相同也可以不同, 实用中常选用长度相同的区间以便于进行比较, 此时各组区间的长度称为组距, 其近似公式为
    组距 d = d= d= (样本最大观测值 - 样本最小观测值) / / / 组数.
  • (3) 确定每组组限. 各组区间端点为 a 0 , a 0 + d = a 1 , a 0 + 2 d = a 2 , ⋯   , a 0 + k d = a_0, a_0+d=a_1, a_0+2 d=a_2, \cdots, a_0+k d= a0,a0+d=a1,a0+2d=a2,,a0+kd= a k a_k ak,形成如下的分组区间
    ( a 0 , a 1 ] , ( a 1 , a 2 ] , ⋯   , ( a k − 1 , a k ] , \left(a_0, a_1\right],\left(a_1, a_2\right], \cdots,\left(a_{k-1}, a_k\right], (a0,a1],(a1,a2],,(ak1,ak],
    其中 a 0 a_0 a0 略小于最小观测值, a 4 a_4 a4 略大于最大观测值。
    通常可用每组的组中值来代表该组的变量取值, 组中值 = = = (组上限 + + + 组下限) / 2 / 2 /2.
  • (4) 统计样本数据落入每个区间的个数一一频数, 并列出其频数频率分布表.

5.2.3 样本数据的图形显示

前面我们介绍了频数频率分布的表格形式, 它也可以用图形表示, 这在许多场合更直观.
一、直方图
频数分布最常用的图形表示是直方图, 它在组距相等场合常用宽度相等的长条矩形表示, 矩形的高低表示频数的大小.若把纵轴改成频率就得到频率直方图.为使诸长条矩形面积和为 1 , 可将纵 轴取为频率/组距, 如此得到的直方图称为单位频率直方图, 或简称频率直方图. 凡此三种直方图的差别仅在于纵轴刻度的选择, 直方图本身并无变化.
二、茎叶图
我们用数据给出一个茎叶图. 把每一个数值分为两部分, 前面一部分 (百位和十位) 称为茎, 后面部分 (个位) 称为叶, 然后画一条坚线, 在坚线的左侧写上茎,右侧写上叶, 就形成了茎叶图. 然后画一条坚线, 在坚线的左侧写上茎,右侧写上叶, 就形成了茎叶图.
茎叶图的外观很像横放的直方图, 但茎叶图中叶增加了具体的数值, 使我们对数据的具体取值一目了然,从而保留了数据中全部的信息; 在要比较两组样本时, 可画出它们的背靠背的茎叶图, 这是一个简单直观而有效的对比方法.

5.3 统计量及其分布

5.3.1 统计量与抽样分布

定义 5.3.1
x 1 , x 2 , ⋯   , x n x_1, x_2, \cdots, x_n x1,x2,,xn 为取自某总体的样本, 若样本函数 T = T= T= T ( x 1 , x 2 , ⋯   , x n ) T\left(x_1, x_2, \cdots, x_n\right) T(x1,x2,,xn) 中不含有任何末知参数, 则称 T T T统计量. 统计量的分布称为抽样分布.

5.3.2 样本均值及其抽样分布

定义 5.3.2
x 1 , x 2 , ⋯   , x n x_1, x_2, \cdots, x_n x1,x2,,xn 为取自某总体的样本, 其算术平均值称为样本均值, 一般用 x ˉ \bar{x} xˉ 表示, 即
x ˉ = x 1 + ⋯ + x n n = 1 n ∑ i = 1 n x i . \bar{x}=\frac{x_1+\cdots+x_n}{n}=\frac{1}{n} \sum_{i=1}^n x_i . xˉ=nx1++xn=n1i=1nxi.
在分组样本场合, 样本均值的近似公式为
x ˉ = x 1 f 1 + ⋯ + x k f k n ( n = ∑ i = 1 k f i ) . \bar{x}=\frac{x_1 f_1+\cdots+x_k f_k}{n} \quad\left(n=\sum_{i=1}^k f_i\right) . xˉ=nx1f1++xkfk(n=i=1kfi).
其中 k k k 为组数, x i x_i xi 为第 i i i 组的组中值, f i f_i fi 为第 i i i 组的频数.

关于样本均值, 有如下几个性质.

定理 5.3.1 若把样本中的数据与样本均值之差称为偏差, 则样本所有偏差之和为 0 , 即 ∑ i = 1 n ( x i − x ˉ ) = 0 \sum_{i=1}^n\left(x_i-\bar{x}\right)=0 i=1n(xixˉ)=0.

定理 5.3.2 数据观测值与均值的偏差平方和最小, 即在形如 Σ (

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值