若干基本概念
我打算首先花一部分篇幅讨论基本概念,其目的在于,这样可以对整个统计学的思想和方法有一个更全面的认识.只希望了解其中具体方法的读者,可以跳过这一部分.
数据与随机变量
统计学的研究对象是数据,核心任务是对数据进行分析,进而对所考察的问题作出推断.
以考察电子产品使用寿命为例.测得5台产品寿命数据如下:
17 | 20 | 50 | 50 | 50 |
---|
数据即为表中的寿命数据,一切研究都是从得到的这些信息出发的.
用数学语言来表达的话,我们计作数据
x
⃗
=
(
x
1
,
x
2
,
.
.
.
,
x
n
)
\vec{x} = (x_1,x_2,...,x_n)
x=(x1,x2,...,xn)
由经验,我们知道使用寿命有一定的随机性.为了精确的表述这种随机性,我们引入随机变量 X X X,描述使用寿命的分布.
那么随机变量与数据的关系是什么呢?
x 1 x_1 x1是 X X X的一个观察值,也可看作与 X X X同分布的随机变量 X 1 X_1 X1的观察值.同样的, x ⃗ = ( x 1 , x 2 , . . . , x n ) \vec{x} = (x_1,x_2,...,x_n) x=(x1,x2,...,xn)可看作 X ⃗ = ( X 1 , X 2 , . . . , X n ) \vec{X} = (X_1,X_2,...,X_n) X=(X1,X2,...,Xn)的观察值.而我们一般要做的就是由观察值推测随机变量本身的性质.
随机变量的分布
总体:考察的对象的总和,一般为随机变量.
总体分布:想要考察的总体的分布.
由于我们不知道总体的分布,我们不得不将总体分布看成分布类中的一个成员,这自然而然的引入了参数的概念.
若总体服从指数分布,分布密度具有如下形式:
p
(
x
,
θ
)
=
1
θ
e
−
x
θ
,
x
>
0
,
θ
>
0
p(x,\theta) = \frac{1}{\theta}e^{-\frac{x}{\theta}},x>0,\theta>0
p(x,θ)=θ1e−θx,x>0,θ>0
则
θ
\theta
θ为参数,相应的
F
(
x
,
θ
)
F(x,\theta)
F(x,θ)为分布函数.
模型
F ( x , θ ) F(x,\theta) F(x,θ)或 θ \theta θ是未知的,我们只能确定一个分布族,用 F = { F θ : θ ∈ Θ } \mathscr{F} = \{F_\theta : \theta \in \Theta \} F={Fθ:θ∈Θ}表示,其中 Θ \Theta Θ表示参数取值的空间,即参数空间.
有了随机变量 X X X和分布族 F \mathscr{F} F就形成了一个模型.
样本
之前提到过,数据
x
⃗
=
(
x
1
,
x
2
,
.
.
.
,
x
n
)
\vec{x} = (x_1,x_2,...,x_n)
x=(x1,x2,...,xn)可以看作是
X
⃗
=
(
X
1
,
X
2
,
.
.
.
,
X
n
)
\vec{X} = (X_1,X_2,...,X_n)
X=(X1,X2,...,Xn)的一组观察值(其中
X
1
,
X
2
,
.
.
.
,
X
n
∼
i
i
d
F
θ
X_1,X_2,...,X_n \sim iid F_\theta
X1,X2,...,Xn∼iidFθ).
称
X
⃗
=
(
X
1
,
X
2
,
.
.
.
,
X
n
)
\vec{X} = (X_1,X_2,...,X_n)
X=(X1,X2,...,Xn)为样本,n为样本量,
x
⃗
=
(
x
1
,
x
2
,
.
.
.
,
x
n
)
\vec{x} = (x_1,x_2,...,x_n)
x=(x1,x2,...,xn)为样本值.
X
⃗
\vec{X}
X所有可能取值的集合
X
\mathscr{X}
X称为样本空间.
统计量
定义在 X \mathscr{X} X上的任何函数 T ( x ⃗ ) T(\vec{x}) T(x)称为统计量,它是只依赖数据的函数.
在我看来,引入统计量的意义在于,我们所能实际获取的只有数据,因此我们在研究中就只能通过数据来表达我们关心的量,比如参数的估计值,总体的性质(如均值,方差)
举一个常用来估计均值的统计量,以助于理解统计量这个概念.
a ^ = 1 n Σ i = 1 n X i \hat{a} = \frac{1}{n} \Sigma^n_{i=1}X_i a^=n1Σi=1nXi