数理统计（第一周）《统计量及其分布》

最新推荐文章于 2024-08-19 09:09:45 发布

宋季辛

最新推荐文章于 2024-08-19 09:09:45 发布

阅读量579

点赞数

分类专栏：数理统计文章标签：概率论

本文链接：https://blog.csdn.net/qq_44149765/article/details/104440485

版权

数理统计专栏收录该内容

2 篇文章 0 订阅

订阅专栏

数理统计（第一周）统计量及其分布

1.什么是数理统计？

1.1 由反复试验得到的观察值 $x_{1},x_{2}…x_{n}$ 分析、推断出未知随机变量的分布。

1.2 数理统计是一门应用型很强的学科。它使用概率论个数学的方法，研究怎样以有效的方式手机、整理和分析（称为统计分析）带有随机性的数据，以便对研究对象的性质、特点作出推断（称为统计推断）

EG:

某国14岁男孩的平均身高
大西洋中鳕鱼的平均重量
某工厂生产的一批灯泡的平均寿命
观看某一电视节目的观众人数

1.3 由于大量随机现象必然呈现出规律性，只要对随机现象进行足够多次观察，被研究的规律性一定能清楚地呈现出来。

1.4 客观上，只允许我们对随机现象进行次数不多的观察试验，我们只能获得有限的局部观察资料。

因此，在数理统计中，不是对所研究的对象全体（称为总体）进行观察，而是抽取其中的部分（称为样本）进行观察获得数据（抽样），并通过这些数据对总体进行推断。

故：数理统计方法具有“部分推断整体”的特征

2.总体

2.1 一个统计问题总有它明确的研究对象。

研究对象的全体称为总体；
总体中每个成员称为个体；
总体中所包含的个体的个数称为总体的容量。

2.2 总体分为：有限总体和无限总体
有的有限总体，容量很大，也可以把它当做无限总体来处理。例如：考察大西洋中鳕鱼的重量。

2.3 总体容量取决于研究目的，也受人力、物力、时间等因素的限制。

2.4 该数量指标的所有可能取值就是总体；每个观察值就是个体。
数量统计是一个随机变量 $X$ ，则总体就对应于这个随机变量 $X$ 。 $X$ 的分布和数字特征就是该总体的分布和数字特征。

例1：
研究一批灯泡的寿命时。关心的数量指标就是寿命。
寿命 $X$ 可以用指数分布来刻画，则灯泡寿命总体是指数分布的总体。
通常，用随机变量的记号或其分布函数表示总体，即总体 $X$ 或总体 $F_{(x)}$ 。

例2：
研究某地区中学生营养状况时，若关心的数量指标是身高和体重，分别用
$X$ 和 $Y$ 表示，那么，此总体可表示为二维随机变量 $（ X, Y ）$ 或者联合分布函数 $F (x ， y)$

综上：总体就是一个概率分布。总体分布一般未知，或只知道近似服从某种分布，但包含未知参数。

3.样本

3.1 定义

为推断总体分布及各种特征，按一定规则从总体中抽取若干个体进行观察试验，以获得有关总体的信息，这一抽样过程称为“抽样”。
被抽取的部分个体称为总体的一个样本。样本中包含的个体数目称为样本容量。
例如：从某批灯泡中抽取5只激进型寿命试验，样本容量为5，抽到哪5只是随机的，从总体中抽取样本容量为 $n$ 的样本，即得到 $n$ 个随机变量，按试验顺序记为 $X_{1},X_{2}…X_{n}$

3.2 简单随机抽样的特点

代表性： $X_{1},X_{2}…X_{n}$ 中每一个与所考察的总体有相同的分布
独立性： $X_{1},X_{2}…X_{n}$ 是相互独立的随机变量

由简单随机抽样获得的样本成为简单随机样本，可以用与总体独立同分布的 $n$ 个相互独立的随机变量 $X_{1},X_{2}…X_{n}$ 表示。

3.3 样本值

样本值：确定一组样本 $X_{1},X_{2}…X_{n}$ ，分别对他们进行观察，就得到 $n$ 个具体的数 $x_{1},x_{2}…x_{n}$ ，称为样本 $X_{1},X_{2}…X_{n}$ 的观察值，简称为样本值。
若总体的分布函数为 $F_{（X）}$ , $X_{1},X_{2}…X_{n}$ 是 $F$ 的一个样本，则 $X_{1},X_{2}…X_{n}$ 相互独立且同分布，该样本的联合分布函数为：
$F(x_1,x_2,…,x_n)^*=\displaystyle\prod_{i=1}^{n}F(x_i)$
该样本的联合概率密度函数为：
$f(x_1,x_2,…,x_n)^*=\displaystyle\prod_{i=1}^{n}f(x_i)$

3.4 定义实际操作中，怎样获得简单随机样本？

（放回OR不放回）
对于有限总体，采用放回抽样，就能得到简单随机样本。
当个体的总数 $N$ 比样本容量 $n$ 大得多时，实际中可将不放回抽样近似地当做放回抽样来处理。
对于无限总体，总是采用不放回抽样。

3.5 总体、样本、样本值的关系

事实上，抽样后得到的是具体的样本值，而不是样本，即只能观察到随机变量取的值，而见不到随机变量。
数理统计就是利用手中已有的资料——样本值，去推断总体的情况——总体分布 $F (x)$ 的性质。样本是联系二者的桥梁。
总体分布决定了样本取值的概率规律，也就是样本取到样本值的规律，因而可以由样本值去推断总体。

4.简单随机样本是如何反映总体信息的？

若已知总体 $X$ 的分布函数为 $F (x)$ ， $X_{1},X_{2}…X_{n}$ 为来自 $X$ 的一个样本，那样本的联合分布如何？
$F(x_{1},x_{2}…x_{n})=\displaystyle\prod_{i=1}^{n}Fx_i(x_i)=\displaystyle\prod_{i=1}^{n}F(x_i)$
证明：独立性+代表性
结论：总体分布决定了样本分布。反之，样本分布中包含了总体分布的信息。

若总体 $X$ 是连续性随机变量，密度函数为 $f (x)$ ，对样本这个 $n$ 维连续性随机变量 $X_{1},X_{2}…X_{n}）$ ，联合概率密度为
$f(x_{1},x_{2}…x_{n}=\displaystyle\prod_{i=1}^{n}fx_i(x_i)=\displaystyle\prod_{i=1}^{n}f(x_i)$

若总体 $X$ 是离散型随机变量，分布律为
$P(X=x_i)=p_i, i=1,2,…,n$
对样本这个 $n$ 维离散随机变量 $X_{1},X_{2}…X_{n})$ ，联合分布律为 $P(X_{1},X_{2}…X_{n})=\displaystyle\prod_{i=1}^{n}P\{X_i=x_{i_k}\}=\displaystyle\prod_{i=1}^{n}P_{i_k}$
$i_1,………，i_n∈\{1,2,…n\}$
都可看出：样本取值规律由总体分布决定。

例：求下例中样本的联合分布律
$N$ 个产品中由 $M$ 个废品，从中抽出 $n$ 个逐一检查是否称为废品，并据此估计废品率 $p$ 。
解：
总体：任取一件产品的废品数为 $X\Longleftrightarrow$ $P(X=x)=p^x(1-p)^{1-x},x=0,1$
样本 : $X_{1},X_{2}…X_{n}$
其中 $X_i$ 为有放回抽样条件下第 $i$ 件产品的废品数， $i = 1, \dots, n .$
设 $x_{1},x_{2}…x_{n}$ 为样本观测值，则样本的联合分布律为
$P(X_1=x_1,…，X_n=x_n)$
$=\displaystyle\prod_{i=1}^{n}P\{X=x_i\}$
$=\displaystyle\prod_{i=1}^{n}p^{x_i}(1-p)^{1-x_i}$
$=p^{\displaystyle\sum_{i=1}^{n} x_i}(1-p)^{n-{\displaystyle\sum_{i=1}^{n}x_i}}$
$x_i=0,1,i=1,…，n$

5.样本数据的整理与显示

5.1 直方图

频率分布直方图可以反映出连续型随机变量的频率分布情况。
绘制步骤：

找出样本数据中的最小值和最大值，来确定样本区间；
将区间分为 $m$ 个子区间，用横坐标来刻画；
统计数据落在每个区间上的频数，计算频率及各直方块的高度，用纵坐标来刻画。

5.2 经验分布函数

5.2.1 定义
设 $X_{1},X_{2}…X_{n}$ 是总体 $F$ 的一个样本，用 $s (x), - \infty < x < \infty$ 表示 $X_{1},X_{2}…X_{n}$ 中不大于 $x$ 的随机变量的个数。
经验分布函数为： $F_n(X)=\frac{1}{n}s(x),-∞<x<∞$
对于一个样本，经验分布函数 $F_n(X)$ 的观察值是很容易得到的（仍以 $F_n(X)$ 表示）

5.2.1 计算步骤：

对样本数据从小到大进行排序，合并相同数据，并统计频数；
用频数除以总数计算频率值；
计算累计频率

一般，设 $x_{1},x_{2}…x_{n}$ 是总体的一个样本容量为 $n$ 的样本值。将他们按大小次序排列如下： $x_{(1)} ≤ x_{(2)}≤…≤x_{(n)}$
则经验分布函数 $F_n(x)$ 的观察值为：

$F_n(x)=\left\{ \begin{array}{rcl} 0 & & { 若x<x_{(1)}} \\ \frac{k}{n} & & {若x_{(k)}≤x<x_{(k+1)}, (k=1,2,…，n-1)}\\ 1 & & {若x≥x_(n)} \end{array} \right.$

5.2.3 【格里汶科（Ghivenko）定理】
对于任一实数 $x$ ,当 $n \to \infty$ 时， $F_n(x)$ 以概率1一致收敛于分布函数 $F_n(x)$ ，即
$P\{\displaystyle\lim_{n→∞}sup|F_n(x)-F(x)|=0\}=1$
对于任一实数 $x$ 当 $n$ 充分大时，经验分布函数的任一个观察值 $F_n(x)$ 与总体分布函数 $F (x)$ 只有微小的差别，从而在实际上可当做 $F (x)$ 来使用。