概率论与数理统计系列笔记之第五章——统计量及其分布

欧阳妙妙

已于 2022-12-09 23:59:21 修改

阅读量422

点赞数 1

文章标签：概率论

于 2022-12-06 12:13:51 首次发布

本文链接：https://blog.csdn.net/wantong_/article/details/128200307

版权

概率论与数理统计笔记（第五章——统计量及其分布）

对于统计专业来说，书本知识总有遗忘，翻看教材又太麻烦，于是打算记下笔记与自己的一些思考，主要参考用书是茆诗松老师编写的《概率论与数理统计教程》，其他知识待后续书籍补充。

文章目录

概率论与数理统计笔记（第五章——统计量及其分布）
第五章统计量及其分布

第五章统计量及其分布

5.1 总体与样本

5.1.1 总体与个体

在一个统计问题中, 我们把研究对象的全体称为总体, 构成总体的每个成员称为个体.

5.1.2 样本

为了了解总体的分布, 我们从总体中随机地抽取 $n$ 个个体, 记其指标值为 $x_1, x_2, \cdots, x_n$ , 则 $x_1, x_2, \cdots, x_n$ 称为总体的一个样本, $n$ 称为样本容量, 或简称样本量, 样本中的个体称为样品.

从总体中抽取样本可以有不同的抽法, 为了能由样本对总体作出较可靠的推断, 就希望样本能很好地代表总体. 这就需要对抽样方法提出一些要求, 最常用的“简单随机抽样”有如下两个要求:

样本具有随机性, 即要求总体中每一个个体都有同等机会被选人样本, 这便意味着每一样品 $x_i$ 与总体 $X$ 有相同的分布.
样本要有独立性, 即要求样本中每一样品的取值不影晌其他样品的取值,这意味着 $x_1, x_2, \cdots, x_n$ 相互独立.
用简单随机抽样方法得到的样本称为简单随机样本, 也简称样本. 除非特别指明, 本书中的样本皆为简单随机样本. 于是, 样本 $x_1, x_2, \cdots, x_n$ 可以看成是相互独立的具有同一分布的随机变量, 又称为 i.i.d 样本, 其共同分布即为总体分布.

设总体 $X$ 具有分布函数 $x_1, x_2, \cdots, x_n$ 为取自该总体的容量为 $n$ 的样本, 则样本联合分布函数为
$F\left(x_1, x_2, \cdots, x_n\right)=\prod_{i=1}^n F\left(x_i\right) .$

5.2 样本数据的整理与显示

5.2.1 经验分布函数

设 $x_1, x_2, \cdots, x_n$ 是取自总体分布函数为 $F (x)$ 的样本, 若将样本观测值由小到大进行排列, 为 $x_{(1)}, x_{(2)}, \cdots, x_{(n)}$ , 则 $x_{(1)}, x_{(2)}, \cdots, x_{(n)}$ 称为有序样本, 用有序样本定义如下函数
$F_n(x)= \begin{cases}0, & \text { 当 } x<x_{(1)}, \\ k / n, & \text { 当 } x_{(k)} \leqslant x<x_{(k+1)}, k=1,2, \cdots, n-1, \\ 1, & \text { 当 } x \geqslant x_{(n)},\end{cases}$
则 $F_n(x)$ 是一非减右连续函数, 且满足
$F_n(-\infty)=0 \text { 和 } F_n(\infty)=1 .$
由此可见, $F_n(x)$ 是一个分布函数, 并称 $F_n(x)$ 为经验分布函数.

定理 5.2.1 (格里纹科定理) 设 $x_1, x_2, \cdots, x_n$ 是取自总体分布函数为 $F (x)$ 的样本, $F_n(x)$ 是其经验分布函数, 当 $\rightarrow \infty$ 时, 有
$P\left(\sup _{-\infty<x<\infty}\left|F_n(x)-F(x)\right| \rightarrow 0\right)=1 .$

定理 5.2.1 表明,当 $n$ 相当大时,经验分布函数是总体分布函数 $F (x)$ 的一个良好的近似. 经典统计学中一切统计推断都以样本为依据, 其理由就在于此.

5.2.2 频数频率分布表

样本数据的整理是统计研究的基础,整理数据的最常用方法之一是给出其频数分布表或频率分布表. 具体步骤如下:

(1) 对样本进行分组. 首先确定组数 $k$ , 作为一般性的原则, 组数通常在 $\sim 20$ 个, 对容量较小的样本, 通常将其分为 5 组或 6 组, 容量为 100 左右的样本可分 7 到 10 组,容量为 200 左右的样本可分 9 到 13 组, 容量为 300 左右及以上的样本可分 12 到 20 组, 目的是使用足够的组来表示数据的变异. \
(2) 确定每组组距. 每组区间长度可以相同也可以不同, 实用中常选用长度相同的区间以便于进行比较, 此时各组区间的长度称为组距, 其近似公式为
组距 $d =$ (样本最大观测值 - 样本最小观测值) $/$ 组数.
(3) 确定每组组限. 各组区间端点为 $a_0, a_0+d=a_1, a_0+2 d=a_2, \cdots, a_0+k d=$ $a_k$ ,形成如下的分组区间
$\left(a_0, a_1\right],\left(a_1, a_2\right], \cdots,\left(a_{k-1}, a_k\right],$
其中 $a_0$ 略小于最小观测值, $a_4$ 略大于最大观测值。
通常可用每组的组中值来代表该组的变量取值, 组中值 $=$ (组上限 $+$ 组下限) $/ 2$ .
(4) 统计样本数据落入每个区间的个数一一频数, 并列出其频数频率分布表.

5.2.3 样本数据的图形显示

前面我们介绍了频数频率分布的表格形式, 它也可以用图形表示, 这在许多场合更直观.
一、直方图
频数分布最常用的图形表示是直方图, 它在组距相等场合常用宽度相等的长条矩形表示, 矩形的高低表示频数的大小.若把纵轴改成频率就得到频率直方图.为使诸长条矩形面积和为 1 , 可将纵轴取为频率/组距, 如此得到的直方图称为单位频率直方图, 或简称频率直方图. 凡此三种直方图的差别仅在于纵轴刻度的选择, 直方图本身并无变化.
二、茎叶图
我们用数据给出一个茎叶图. 把每一个数值分为两部分, 前面一部分 (百位和十位) 称为茎, 后面部分 (个位) 称为叶, 然后画一条坚线, 在坚线的左侧写上茎,右侧写上叶, 就形成了茎叶图. 然后画一条坚线, 在坚线的左侧写上茎,右侧写上叶, 就形成了茎叶图.
茎叶图的外观很像横放的直方图, 但茎叶图中叶增加了具体的数值, 使我们对数据的具体取值一目了然,从而保留了数据中全部的信息; 在要比较两组样本时, 可画出它们的背靠背的茎叶图, 这是一个简单直观而有效的对比方法.

5.3 统计量及其分布

5.3.1 统计量与抽样分布

定义 5.3.1
设 $x_1, x_2, \cdots, x_n$ 为取自某总体的样本, 若样本函数 $T =$ $T\left(x_1, x_2, \cdots, x_n\right)$ 中不含有任何末知参数, 则称 $T$ 为统计量. 统计量的分布称为抽样分布.

5.3.2 样本均值及其抽样分布

定义 5.3.2
设 $x_1, x_2, \cdots, x_n$ 为取自某总体的样本, 其算术平均值称为样本均值, 一般用 $\bar{x}$ 表示, 即
$\bar{x}=\frac{x_1+\cdots+x_n}{n}=\frac{1}{n} \sum_{i=1}^n x_i .$
在分组样本场合, 样本均值的近似公式为
$\bar{x}=\frac{x_1 f_1+\cdots+x_k f_k}{n} \quad\left(n=\sum_{i=1}^k f_i\right) .$
其中 $k$ 为组数, $x_i$ 为第 $i$ 组的组中值, $f_i$ 为第 $i$ 组的频数.