数理统计(第一周)《统计量及其分布》

数理统计(第一周)统计量及其分布

1.什么是数理统计?

1.1 由反复试验得到的观察值 x 1 , x 2 … x n x_{1},x_{2}…x_{n} x1,x2xn分析、推断出未知随机变量的分布。

1.2 数理统计是一门应用型很强的学科。它使用概率论个数学的方法,研究怎样以有效的方式手机、整理和分析(称为统计分析)带有随机性的数据,以便对研究对象的性质、特点作出推断(称为统计推断)

EG:

  • 某国14岁男孩的平均身高
  • 大西洋中鳕鱼的平均重量
  • 某工厂生产的一批灯泡的平均寿命
  • 观看某一电视节目的观众人数

1.3 由于大量随机现象必然呈现出规律性,只要对随机现象进行足够多次观察,被研究的规律性一定能清楚地呈现出来。

1.4 客观上,只允许我们对随机现象进行次数不多的观察试验,我们只能获得有限的局部观察资料。

因此,在数理统计中,不是对所研究的对象全体(称为总体)进行观察,而是抽取其中的部分(称为样本)进行观察获得数据(抽样),并通过这些数据对总体进行推断。

故:数理统计方法具有“部分推断整体”的特征

2.总体

2.1 一个统计问题总有它明确的研究对象。

  • 研究对象的全体称为总体;
  • 总体中每个成员称为个体;
  • 总体中所包含的个体的个数称为总体的容量。

2.2 总体分为:有限总体和无限总体
有的有限总体,容量很大,也可以把它当做无限总体来处理。例如:考察大西洋中鳕鱼的重量。

2.3 总体容量取决于研究目的,也受人力、物力、时间等因素的限制。

2.4 该数量指标的所有可能取值就是总体;每个观察值就是个体。
数量统计是一个随机变量 X X X,则总体就对应于这个随机变量 X X X X X X的分布和数字特征就是该总体的分布和数字特征。

例1:
研究一批灯泡的寿命时。关心的数量指标就是寿命。
寿命 X X X可以用指数分布来刻画,则灯泡寿命总体是指数分布的总体。
通常,用随机变量的记号或其分布函数表示总体,即总体 X X X或总体 F ( x ) F_{(x)} F(x)

例2:
研究某地区中学生营养状况时,若关心的数量指标是身高和体重,分别用
X X X Y Y Y表示,那么,此总体可表示为二维随机变量 ( X , Y ) (X,Y) X,Y或者联合分布函数 F ( x , y ) F(x,y) F(xy)

综上:总体就是一个概率分布。总体分布一般未知,或只知道近似服从某种分布,但包含未知参数。

3.样本

3.1 定义

为推断总体分布及各种特征,按一定规则从总体中抽取若干个体进行观察试验,以获得有关总体的信息,这一抽样过程称为“抽样”。
被抽取的部分个体称为总体的一个样本。样本中包含的个体数目称为样本容量。
例如:从某批灯泡中抽取5只激进型寿命试验,样本容量为5,抽到哪5只是随机的,从总体中抽取样本容量为 n n n的样本,即得到 n n n个随机变量,按试验顺序记为 X 1 , X 2 … X n X_{1},X_{2}…X_{n} X1,X2Xn

3.2 简单随机抽样的特点

  • 代表性: X 1 , X 2 … X n X_{1},X_{2}…X_{n} X1,X2Xn中每一个与所考察的总体有相同的分布
  • 独立性: X 1 , X 2 … X n X_{1},X_{2}…X_{n} X1,X2Xn是相互独立的随机变量

由简单随机抽样获得的样本成为简单随机样本,可以用与总体独立同分布 n n n个相互独立的随机变量 X 1 , X 2 … X n X_{1},X_{2}…X_{n} X1,X2Xn表示。

3.3 样本值

样本值:确定一组样本 X 1 , X 2 … X n X_{1},X_{2}…X_{n} X1,X2Xn,分别对他们进行观察,就得到 n n n个具体的数 x 1 , x 2 … x n x_{1},x_{2}…x_{n} x1,x2xn,称为样本 X 1 , X 2 … X n X_{1},X_{2}…X_{n} X1,X2Xn的观察值,简称为样本值。
若总体的分布函数为 F ( X ) F_{(X)} FX, X 1 , X 2 … X n X_{1},X_{2}…X_{n} X1,X2Xn F F F的一个样本,则 X 1 , X 2 … X n X_{1},X_{2}…X_{n} X1,X2Xn相互独立且同分布,该样本的联合分布函数为:
F ( x 1 , x 2 , … , x n ) ∗ = ∏ i = 1 n F ( x i ) F(x_1,x_2,…,x_n)^*=\displaystyle\prod_{i=1}^{n}F(x_i) F(x1,x2,,xn)=i=1nF(xi)
该样本的联合概率密度函数为:
f ( x 1 , x 2 , … , x n ) ∗ = ∏ i = 1 n f ( x i ) f(x_1,x_2,…,x_n)^*=\displaystyle\prod_{i=1}^{n}f(x_i) f(x1,x2,,xn)=i=1nf(xi)

3.4 定义实际操作中,怎样获得简单随机样本?

(放回OR不放回)
对于有限总体,采用放回抽样,就能得到简单随机样本。
当个体的总数 N N N比样本容量 n n n大得多时,实际中可将不放回抽样近似地当做放回抽样来处理。
对于无限总体,总是采用不放回抽样。

3.5 总体、样本、样本值的关系

事实上,抽样后得到的是具体的样本值,而不是样本,即只能观察到随机变量取的值,而见不到随机变量。
数理统计就是利用手中已有的资料——样本值,去推断总体的情况——总体分布 F ( x ) F(x) F(x)的性质。样本是联系二者的桥梁。
总体分布决定了样本取值的概率规律,也就是样本取到样本值的规律,因而可以由样本值去推断总体。

4.简单随机样本是如何反映总体信息的?

若已知总体 X X X的分布函数为 F ( x ) F(x) F(x) X 1 , X 2 … X n X_{1},X_{2}…X_{n} X1,X2Xn为来自 X X X的一个样本,那样本的联合分布如何?
F ( x 1 , x 2 … x n ) = ∏ i = 1 n F x i ( x i ) = ∏ i = 1 n F ( x i ) F(x_{1},x_{2}…x_{n})=\displaystyle\prod_{i=1}^{n}Fx_i(x_i)=\displaystyle\prod_{i=1}^{n}F(x_i) F(x1,x2xn)=i=1nFxi(xi)=i=1nF(xi)
证明:独立性+代表性
结论:总体分布决定了样本分布。反之,样本分布中包含了总体分布的信息。

若总体 X X X是连续性随机变量,密度函数为 f ( x ) f(x) f(x),对样本这个 n n n维连续性随机变量 ( X 1 , X 2 … X n ) (X_{1},X_{2}…X_{n}) X1,X2Xn,联合概率密度为
f ( x 1 , x 2 … x n = ∏ i = 1 n f x i ( x i ) = ∏ i = 1 n f ( x i ) f(x_{1},x_{2}…x_{n}=\displaystyle\prod_{i=1}^{n}fx_i(x_i)=\displaystyle\prod_{i=1}^{n}f(x_i) f(x1,x2xn=i=1nfxi(xi)=i=1nf(xi)

若总体 X X X是离散型随机变量,分布律为
P ( X = x i ) = p i , i = 1 , 2 , … , n P(X=x_i)=p_i, i=1,2,…,n P(X=xi)=pi,i=1,2,,n
对样本这个 n n n维离散随机变量 ( X 1 , X 2 … X n ) (X_{1},X_{2}…X_{n}) (X1,X2Xn),联合分布律为 P ( X 1 , X 2 … X n ) = ∏ i = 1 n P { X i = x i k } = ∏ i = 1 n P i k P(X_{1},X_{2}…X_{n})=\displaystyle\prod_{i=1}^{n}P\{X_i=x_{i_k}\}=\displaystyle\prod_{i=1}^{n}P_{i_k} P(X1,X2Xn)=i=1nP{Xi=xik}=i=1nPik
i 1 , … … … , i n ∈ { 1 , 2 , … n } i_1,………,i_n∈\{1,2,…n\} i1,in{1,2,n}
都可看出:样本取值规律由总体分布决定。

例:求下例中样本的联合分布律
N N N个产品中由 M M M个废品,从中抽出 n n n个逐一检查是否称为废品,并据此估计废品率 p p p
解:
总体:任取一件产品的废品数为 X ⟺ X\Longleftrightarrow X P ( X = x ) = p x ( 1 − p ) 1 − x , x = 0 , 1 P(X=x)=p^x(1-p)^{1-x},x=0,1 P(X=x)=px(1p)1x,x=0,1
样本 : X 1 , X 2 … X n X_{1},X_{2}…X_{n} X1,X2Xn
其中 X i X_i Xi为有放回抽样条件下第 i i i件产品的废品数, i = 1 , … , n . i=1,…,n. i=1,,n.
x 1 , x 2 … x n x_{1},x_{2}…x_{n} x1,x2xn为样本观测值,则样本的联合分布律为
P ( X 1 = x 1 , … , X n = x n ) P(X_1=x_1,…,X_n=x_n) P(X1=x1,Xn=xn)
= ∏ i = 1 n P { X = x i } =\displaystyle\prod_{i=1}^{n}P\{X=x_i\} =i=1nP{X=xi}
= ∏ i = 1 n p x i ( 1 − p ) 1 − x i =\displaystyle\prod_{i=1}^{n}p^{x_i}(1-p)^{1-x_i} =i=1npxi(1p)1xi
= p ∑ i = 1 n x i ( 1 − p ) n − ∑ i = 1 n x i =p^{\displaystyle\sum_{i=1}^{n} x_i}(1-p)^{n-{\displaystyle\sum_{i=1}^{n}x_i}} =pi=1nxi(1p)ni=1nxi
x i = 0 , 1 , i = 1 , … , n x_i=0,1,i=1,…,n xi=0,1,i=1,n

5.样本数据的整理与显示

5.1 直方图

频率分布直方图可以反映出连续型随机变量的频率分布情况。
绘制步骤:

  1. 找出样本数据中的最小值和最大值,来确定样本区间;
  2. 将区间分为 m m m个子区间,用横坐标来刻画;
  3. 统计数据落在每个区间上的频数,计算频率及各直方块的高度,用纵坐标来刻画。

5.2 经验分布函数

5.2.1 定义
X 1 , X 2 … X n X_{1},X_{2}…X_{n} X1,X2Xn是总体 F F F的一个样本,用 s ( x ) , − ∞ < x < ∞ s(x),-∞<x<∞ s(x),<x<表示 X 1 , X 2 … X n X_{1},X_{2}…X_{n} X1,X2Xn中不大于 x x x的随机变量的个数。
经验分布函数为: F n ( X ) = 1 n s ( x ) , − ∞ < x < ∞ F_n(X)=\frac{1}{n}s(x),-∞<x<∞ Fn(X)=n1s(x),<x<
对于一个样本,经验分布函数 F n ( X ) F_n(X) Fn(X)的观察值是很容易得到的(仍以 F n ( X ) F_n(X) Fn(X)表示)

5.2.1 计算步骤:

  1. 对样本数据从小到大进行排序,合并相同数据,并统计频数;
  2. 用频数除以总数计算频率值;
  3. 计算累计频率

一般,设 x 1 , x 2 … x n x_{1},x_{2}…x_{n} x1,x2xn是总体的一个样本容量为 n n n的样本值。将他们按大小次序排列如下: x ( 1 ) ≤ x ( 2 ) ≤ … ≤ x ( n ) x_{(1)} ≤ x_{(2)}≤…≤x_{(n)} x(1)x(2)x(n)
则经验分布函数 F n ( x ) F_n(x) Fn(x)的观察值为:

F n ( x ) = { 0 若 x < x ( 1 ) k n 若 x ( k ) ≤ x < x ( k + 1 ) , ( k = 1 , 2 , … , n − 1 ) 1 若 x ≥ x ( n ) F_n(x)=\left\{ \begin{array}{rcl} 0 & & { 若x<x_{(1)}} \\ \frac{k}{n} & & {若x_{(k)}≤x<x_{(k+1)}, (k=1,2,…,n-1)}\\ 1 & & {若x≥x_(n)} \end{array} \right. Fn(x)=0nk1x<x(1)x(k)x<x(k+1),(k=1,2,n1)xx(n)

5.2.3 【格里汶科(Ghivenko)定理】
对于任一实数 x x x,当 n → ∞ n→∞ n时, F n ( x ) F_n(x) Fn(x)以概率1一致收敛于分布函数 F n ( x ) F_n(x) Fn(x),即
P { lim ⁡ n → ∞ s u p ∣ F n ( x ) − F ( x ) ∣ = 0 } = 1 P\{\displaystyle\lim_{n→∞}sup|F_n(x)-F(x)|=0\}=1 P{nlimsupFn(x)F(x)=0}=1
对于任一实数 x x x n n n充分大时,经验分布函数的任一个观察值 F n ( x ) F_n(x) Fn(x)与总体分布函数 F ( x ) F(x) F(x)只有微小的差别,从而在实际上可当做 F ( x ) F(x) F(x)来使用。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值