数理统计(第一周)统计量及其分布
1.什么是数理统计?
1.1 由反复试验得到的观察值 x 1 , x 2 … x n x_{1},x_{2}…x_{n} x1,x2…xn分析、推断出未知随机变量的分布。
1.2 数理统计是一门应用型很强的学科。它使用概率论个数学的方法,研究怎样以有效的方式手机、整理和分析(称为统计分析)带有随机性的数据,以便对研究对象的性质、特点作出推断(称为统计推断)
EG:
- 某国14岁男孩的平均身高
- 大西洋中鳕鱼的平均重量
- 某工厂生产的一批灯泡的平均寿命
- 观看某一电视节目的观众人数
1.3 由于大量随机现象必然呈现出规律性,只要对随机现象进行足够多次观察,被研究的规律性一定能清楚地呈现出来。
1.4 客观上,只允许我们对随机现象进行次数不多的观察试验,我们只能获得有限的局部观察资料。
因此,在数理统计中,不是对所研究的对象全体(称为总体)进行观察,而是抽取其中的部分(称为样本)进行观察获得数据(抽样),并通过这些数据对总体进行推断。
故:数理统计方法具有“部分推断整体”的特征
2.总体
2.1 一个统计问题总有它明确的研究对象。
- 研究对象的全体称为总体;
- 总体中每个成员称为个体;
- 总体中所包含的个体的个数称为总体的容量。
2.2 总体分为:有限总体和无限总体
有的有限总体,容量很大,也可以把它当做无限总体来处理。例如:考察大西洋中鳕鱼的重量。
2.3 总体容量取决于研究目的,也受人力、物力、时间等因素的限制。
2.4 该数量指标的所有可能取值就是总体;每个观察值就是个体。
数量统计是一个随机变量
X
X
X,则总体就对应于这个随机变量
X
X
X。
X
X
X的分布和数字特征就是该总体的分布和数字特征。
例1:
研究一批灯泡的寿命时。关心的数量指标就是寿命。
寿命
X
X
X可以用指数分布来刻画,则灯泡寿命总体是指数分布的总体。
通常,用随机变量的记号或其分布函数表示总体,即总体
X
X
X或总体
F
(
x
)
F_{(x)}
F(x)。
例2:
研究某地区中学生营养状况时,若关心的数量指标是身高和体重,分别用
X
X
X和
Y
Y
Y表示,那么,此总体可表示为二维随机变量
(
X
,
Y
)
(X,Y)
(X,Y)或者联合分布函数
F
(
x
,
y
)
F(x,y)
F(x,y)
综上:总体就是一个概率分布。总体分布一般未知,或只知道近似服从某种分布,但包含未知参数。
3.样本
3.1 定义
为推断总体分布及各种特征,按一定规则从总体中抽取若干个体进行观察试验,以获得有关总体的信息,这一抽样过程称为“抽样”。
被抽取的部分个体称为总体的一个样本。样本中包含的个体数目称为样本容量。
例如:从某批灯泡中抽取5只激进型寿命试验,样本容量为5,抽到哪5只是随机的,从总体中抽取样本容量为
n
n
n的样本,即得到
n
n
n个随机变量,按试验顺序记为
X
1
,
X
2
…
X
n
X_{1},X_{2}…X_{n}
X1,X2…Xn
3.2 简单随机抽样的特点
- 代表性: X 1 , X 2 … X n X_{1},X_{2}…X_{n} X1,X2…Xn中每一个与所考察的总体有相同的分布
- 独立性: X 1 , X 2 … X n X_{1},X_{2}…X_{n} X1,X2…Xn是相互独立的随机变量
由简单随机抽样获得的样本成为简单随机样本,可以用与总体独立同分布的 n n n个相互独立的随机变量 X 1 , X 2 … X n X_{1},X_{2}…X_{n} X1,X2…Xn表示。
3.3 样本值
样本值:确定一组样本
X
1
,
X
2
…
X
n
X_{1},X_{2}…X_{n}
X1,X2…Xn,分别对他们进行观察,就得到
n
n
n个具体的数
x
1
,
x
2
…
x
n
x_{1},x_{2}…x_{n}
x1,x2…xn,称为样本
X
1
,
X
2
…
X
n
X_{1},X_{2}…X_{n}
X1,X2…Xn的观察值,简称为样本值。
若总体的分布函数为
F
(
X
)
F_{(X)}
F(X),
X
1
,
X
2
…
X
n
X_{1},X_{2}…X_{n}
X1,X2…Xn是
F
F
F的一个样本,则
X
1
,
X
2
…
X
n
X_{1},X_{2}…X_{n}
X1,X2…Xn相互独立且同分布,该样本的联合分布函数为:
F
(
x
1
,
x
2
,
…
,
x
n
)
∗
=
∏
i
=
1
n
F
(
x
i
)
F(x_1,x_2,…,x_n)^*=\displaystyle\prod_{i=1}^{n}F(x_i)
F(x1,x2,…,xn)∗=i=1∏nF(xi)
该样本的联合概率密度函数为:
f
(
x
1
,
x
2
,
…
,
x
n
)
∗
=
∏
i
=
1
n
f
(
x
i
)
f(x_1,x_2,…,x_n)^*=\displaystyle\prod_{i=1}^{n}f(x_i)
f(x1,x2,…,xn)∗=i=1∏nf(xi)
3.4 定义实际操作中,怎样获得简单随机样本?
(放回OR不放回)
对于有限总体,采用放回抽样,就能得到简单随机样本。
当个体的总数
N
N
N比样本容量
n
n
n大得多时,实际中可将不放回抽样近似地当做放回抽样来处理。
对于无限总体,总是采用不放回抽样。
3.5 总体、样本、样本值的关系
事实上,抽样后得到的是具体的样本值,而不是样本,即只能观察到随机变量取的值,而见不到随机变量。
数理统计就是利用手中已有的资料——样本值,去推断总体的情况——总体分布
F
(
x
)
F(x)
F(x)的性质。样本是联系二者的桥梁。
总体分布决定了样本取值的概率规律,也就是样本取到样本值的规律,因而可以由样本值去推断总体。
4.简单随机样本是如何反映总体信息的?
若已知总体
X
X
X的分布函数为
F
(
x
)
F(x)
F(x),
X
1
,
X
2
…
X
n
X_{1},X_{2}…X_{n}
X1,X2…Xn为来自
X
X
X的一个样本,那样本的联合分布如何?
F
(
x
1
,
x
2
…
x
n
)
=
∏
i
=
1
n
F
x
i
(
x
i
)
=
∏
i
=
1
n
F
(
x
i
)
F(x_{1},x_{2}…x_{n})=\displaystyle\prod_{i=1}^{n}Fx_i(x_i)=\displaystyle\prod_{i=1}^{n}F(x_i)
F(x1,x2…xn)=i=1∏nFxi(xi)=i=1∏nF(xi)
证明:独立性+代表性
结论:总体分布决定了样本分布。反之,样本分布中包含了总体分布的信息。
若总体
X
X
X是连续性随机变量,密度函数为
f
(
x
)
f(x)
f(x),对样本这个
n
n
n维连续性随机变量
(
X
1
,
X
2
…
X
n
)
(X_{1},X_{2}…X_{n})
(X1,X2…Xn),联合概率密度为
f
(
x
1
,
x
2
…
x
n
=
∏
i
=
1
n
f
x
i
(
x
i
)
=
∏
i
=
1
n
f
(
x
i
)
f(x_{1},x_{2}…x_{n}=\displaystyle\prod_{i=1}^{n}fx_i(x_i)=\displaystyle\prod_{i=1}^{n}f(x_i)
f(x1,x2…xn=i=1∏nfxi(xi)=i=1∏nf(xi)
若总体
X
X
X是离散型随机变量,分布律为
P
(
X
=
x
i
)
=
p
i
,
i
=
1
,
2
,
…
,
n
P(X=x_i)=p_i, i=1,2,…,n
P(X=xi)=pi,i=1,2,…,n
对样本这个
n
n
n维离散随机变量
(
X
1
,
X
2
…
X
n
)
(X_{1},X_{2}…X_{n})
(X1,X2…Xn),联合分布律为
P
(
X
1
,
X
2
…
X
n
)
=
∏
i
=
1
n
P
{
X
i
=
x
i
k
}
=
∏
i
=
1
n
P
i
k
P(X_{1},X_{2}…X_{n})=\displaystyle\prod_{i=1}^{n}P\{X_i=x_{i_k}\}=\displaystyle\prod_{i=1}^{n}P_{i_k}
P(X1,X2…Xn)=i=1∏nP{Xi=xik}=i=1∏nPik
i
1
,
…
…
…
,
i
n
∈
{
1
,
2
,
…
n
}
i_1,………,i_n∈\{1,2,…n\}
i1,………,in∈{1,2,…n}
都可看出:样本取值规律由总体分布决定。
例:求下例中样本的联合分布律
N
N
N个产品中由
M
M
M个废品,从中抽出
n
n
n个逐一检查是否称为废品,并据此估计废品率
p
p
p。
解:
总体:任取一件产品的废品数为
X
⟺
X\Longleftrightarrow
X⟺
P
(
X
=
x
)
=
p
x
(
1
−
p
)
1
−
x
,
x
=
0
,
1
P(X=x)=p^x(1-p)^{1-x},x=0,1
P(X=x)=px(1−p)1−x,x=0,1
样本 :
X
1
,
X
2
…
X
n
X_{1},X_{2}…X_{n}
X1,X2…Xn
其中
X
i
X_i
Xi为有放回抽样条件下第
i
i
i件产品的废品数,
i
=
1
,
…
,
n
.
i=1,…,n.
i=1,…,n.
设
x
1
,
x
2
…
x
n
x_{1},x_{2}…x_{n}
x1,x2…xn为样本观测值,则样本的联合分布律为
P
(
X
1
=
x
1
,
…
,
X
n
=
x
n
)
P(X_1=x_1,…,X_n=x_n)
P(X1=x1,…,Xn=xn)
=
∏
i
=
1
n
P
{
X
=
x
i
}
=\displaystyle\prod_{i=1}^{n}P\{X=x_i\}
=i=1∏nP{X=xi}
=
∏
i
=
1
n
p
x
i
(
1
−
p
)
1
−
x
i
=\displaystyle\prod_{i=1}^{n}p^{x_i}(1-p)^{1-x_i}
=i=1∏npxi(1−p)1−xi
=
p
∑
i
=
1
n
x
i
(
1
−
p
)
n
−
∑
i
=
1
n
x
i
=p^{\displaystyle\sum_{i=1}^{n} x_i}(1-p)^{n-{\displaystyle\sum_{i=1}^{n}x_i}}
=pi=1∑nxi(1−p)n−i=1∑nxi
x
i
=
0
,
1
,
i
=
1
,
…
,
n
x_i=0,1,i=1,…,n
xi=0,1,i=1,…,n
5.样本数据的整理与显示
5.1 直方图
频率分布直方图可以反映出连续型随机变量的频率分布情况。
绘制步骤:
- 找出样本数据中的最小值和最大值,来确定样本区间;
- 将区间分为 m m m个子区间,用横坐标来刻画;
- 统计数据落在每个区间上的频数,计算频率及各直方块的高度,用纵坐标来刻画。
5.2 经验分布函数
5.2.1 定义
设
X
1
,
X
2
…
X
n
X_{1},X_{2}…X_{n}
X1,X2…Xn是总体
F
F
F的一个样本,用
s
(
x
)
,
−
∞
<
x
<
∞
s(x),-∞<x<∞
s(x),−∞<x<∞表示
X
1
,
X
2
…
X
n
X_{1},X_{2}…X_{n}
X1,X2…Xn中不大于
x
x
x的随机变量的个数。
经验分布函数为:
F
n
(
X
)
=
1
n
s
(
x
)
,
−
∞
<
x
<
∞
F_n(X)=\frac{1}{n}s(x),-∞<x<∞
Fn(X)=n1s(x),−∞<x<∞
对于一个样本,经验分布函数
F
n
(
X
)
F_n(X)
Fn(X)的观察值是很容易得到的(仍以
F
n
(
X
)
F_n(X)
Fn(X)表示)
5.2.1 计算步骤:
- 对样本数据从小到大进行排序,合并相同数据,并统计频数;
- 用频数除以总数计算频率值;
- 计算累计频率
一般,设
x
1
,
x
2
…
x
n
x_{1},x_{2}…x_{n}
x1,x2…xn是总体的一个样本容量为
n
n
n的样本值。将他们按大小次序排列如下:
x
(
1
)
≤
x
(
2
)
≤
…
≤
x
(
n
)
x_{(1)} ≤ x_{(2)}≤…≤x_{(n)}
x(1)≤x(2)≤…≤x(n)
则经验分布函数
F
n
(
x
)
F_n(x)
Fn(x)的观察值为:
F n ( x ) = { 0 若 x < x ( 1 ) k n 若 x ( k ) ≤ x < x ( k + 1 ) , ( k = 1 , 2 , … , n − 1 ) 1 若 x ≥ x ( n ) F_n(x)=\left\{ \begin{array}{rcl} 0 & & { 若x<x_{(1)}} \\ \frac{k}{n} & & {若x_{(k)}≤x<x_{(k+1)}, (k=1,2,…,n-1)}\\ 1 & & {若x≥x_(n)} \end{array} \right. Fn(x)=⎩⎨⎧0nk1若x<x(1)若x(k)≤x<x(k+1),(k=1,2,…,n−1)若x≥x(n)
5.2.3 【格里汶科(Ghivenko)定理】
对于任一实数
x
x
x,当
n
→
∞
n→∞
n→∞时,
F
n
(
x
)
F_n(x)
Fn(x)以概率1一致收敛于分布函数
F
n
(
x
)
F_n(x)
Fn(x),即
P
{
lim
n
→
∞
s
u
p
∣
F
n
(
x
)
−
F
(
x
)
∣
=
0
}
=
1
P\{\displaystyle\lim_{n→∞}sup|F_n(x)-F(x)|=0\}=1
P{n→∞limsup∣Fn(x)−F(x)∣=0}=1
对于任一实数
x
x
x当
n
n
n充分大时,经验分布函数的任一个观察值
F
n
(
x
)
F_n(x)
Fn(x)与总体分布函数
F
(
x
)
F(x)
F(x)只有微小的差别,从而在实际上可当做
F
(
x
)
F(x)
F(x)来使用。