总结自《概率论与数理统计应用》第二版 西安交大出版社
下面是书中一些涉及到期望和方差的内容
第三章:随机变量的数字特征
随机变量的数字特征是一些由它的概率分布所决定的常数,这些常数能够反映随机变量某些方面的重要特征,故称之为随机变量的数字特征。
一、数学期望
1.1 随机变量的数学期望:
1.1.1 离散型随机变量x
设x的分布律为:
P
{
x
=
x
i
}
=
p
i
,
i
=
1
,
2
,
.
.
.
P\{x=x_{i}\} = p_{i}\ ,\ i=1,2,...
P{x=xi}=pi , i=1,2,...
若级数
∑
1
≤
i
≤
∞
x
i
p
i
\sum_{1\le i\le \infty}x_{i}\,p_{i}
∑1≤i≤∞xipi绝对收敛,则称它的数学期望可以表示为:
E
(
x
)
=
∑
1
≤
i
≤
∞
x
i
p
i
E(x)=\sum_{1\le i\le \infty}x_{i}\,p_{i}
E(x)=∑1≤i≤∞xipi
绝对收敛的意思:我的理解为,它的概率分布是稳定且不会变化的,我们的采样方式是不变的,采样概率是x的客观属性,当试验次数很大时,频率
≈
\approx
≈概率。
1.1.2 连续型随机变量x
设连续型随机变量x的概率密度为
f
(
x
)
f(x)
f(x),若积分
∫
−
∞
∞
x
f
(
x
)
d
x
\int_{-\infty}^{\infty}xf(x)dx
∫−∞∞xf(x)dx绝对收敛,则称
∫
−
∞
∞
x
f
(
x
)
d
x
\int_{-\infty}^{\infty}xf(x)dx
∫−∞∞xf(x)dx为随机变量x的数学期望,记为
E
(
x
)
E(x)
E(x),即
E
(
x
)
=
∫
−
∞
∞
x
f
(
x
)
d
x
E(x)=\int_{-\infty}^{\infty}xf(x)dx
E(x)=∫−∞∞xf(x)dx
1.2 随机变量的函数的数学期望
g
(
x
)
g(x)
g(x)为随机变量x的函数
E
[
g
(
X
)
]
=
{
∑
1
≤
i
≤
∞
g
(
x
i
)
p
i
,
当x是离散型
∫
−
∞
∞
g
(
x
)
f
x
(
x
)
d
x
,
当x是连续型
E[g(X)]=\begin{cases} \sum_{1\le i\le \infty}g(x_{i})p_{i}, &\text{当x是离散型} \\ \int_{-\infty}^{\infty}g(x)f_{x}(x)dx, &\text{当x是连续型} \end{cases}
E[g(X)]={∑1≤i≤∞g(xi)pi,∫−∞∞g(x)fx(x)dx,当x是离散型当x是连续型
1.3 数学期望的性质
(1)
E
(
C
)
=
C
,
E(C)=C,
E(C)=C,
(2)
E
(
C
X
)
=
C
E
(
X
)
,
E(CX)=CE(X),
E(CX)=CE(X),
(3)
E
(
X
+
Y
)
=
E
(
X
)
+
E
(
Y
)
,
E(X+Y)=E(X)+E(Y),
E(X+Y)=E(X)+E(Y),
(4)若
X
X
X与
Y
Y
Y相互独立,则
E
(
X
Y
)
=
E
(
X
)
E
(
Y
)
E(XY)=E(X)E(Y)
E(XY)=E(X)E(Y)
证明:
(3)
E
(
X
+
Y
)
=
∫
−
∞
∞
∫
−
∞
∞
(
x
+
y
)
f
(
x
,
y
)
d
x
d
y
E(X+Y)=\int_{-\infty}^{\infty}\int_{-\infty}^{\infty}(x+y)f(x,y)dxdy
E(X+Y)=∫−∞∞∫−∞∞(x+y)f(x,y)dxdy
=
∫
−
∞
∞
x
d
x
∫
−
∞
∞
f
(
x
,
y
)
d
y
+
∫
−
∞
∞
y
d
y
∫
−
∞
∞
f
(
x
,
y
)
d
x
=\int_{-\infty}^{\infty}xdx\int_{-\infty}^{\infty}f(x,y)dy+\int_{-\infty}^{\infty}ydy\int_{-\infty}^{\infty}f(x,y)dx
=∫−∞∞xdx∫−∞∞f(x,y)dy+∫−∞∞ydy∫−∞∞f(x,y)dx
根据边缘定理可知,上式等于
=
∫
−
∞
∞
x
f
(
x
)
d
x
+
∫
−
∞
∞
y
f
(
y
)
d
y
=\int_{-\infty}^{\infty}xf(x)dx+\int_{-\infty}^{\infty}yf(y)dy
=∫−∞∞xf(x)dx+∫−∞∞yf(y)dy
=
E
(
X
)
+
E
(
Y
)
=E(X)+E(Y)
=E(X)+E(Y)
(4)
E
(
X
Y
)
=
∫
−
∞
∞
∫
−
∞
∞
x
y
f
(
x
,
y
)
d
x
d
y
E(XY)=\int_{-\infty}^{\infty}\int_{-\infty}^{\infty}xyf(x,y)dxdy
E(XY)=∫−∞∞∫−∞∞xyf(x,y)dxdy
根据相互独立定理可知,
f
(
x
,
y
)
=
f
(
x
)
f
(
y
)
f(x,y)=f(x)f(y)
f(x,y)=f(x)f(y),上式等于
=
∫
−
∞
∞
x
f
(
x
)
d
x
∫
−
∞
∞
y
f
(
y
)
d
y
=\int_{-\infty}^{\infty}xf(x)dx\int_{-\infty}^{\infty}yf(y)dy
=∫−∞∞xf(x)dx∫−∞∞yf(y)dy
=
E
(
x
)
E
(
y
)
=E(x)E(y)
=E(x)E(y)
二、方差
2.1 方差和标准差
我们用 E { [ X − E ( X ) ] 2 } E\{[X-E(X)]^{2}\} E{[X−E(X)]2}来度量 X X X对其期望 E ( X ) E(X) E(X)的分散程度。这个量就叫做 X X X的方差(‘平均平方偏差’)。
方差和标准差的定义:
设
X
X
X为随机变量,若
E
{
[
X
−
E
(
X
)
]
2
}
E\{[X-E(X)]^{2}\}
E{[X−E(X)]2}存在,则
D
(
X
)
=
E
{
[
X
−
E
(
X
)
]
2
}
D(X)=E\{[X-E(X)]^{2}\}
D(X)=E{[X−E(X)]2}
称为随机变量
X
X
X的方差,而称
D
(
X
)
\sqrt{D(X)}
D(X)为
X
X
X的标准差,记为
σ
(
X
)
\sigma(X)
σ(X),即:
σ
(
X
)
=
D
(
X
)
\sigma(X)=\sqrt{D(X)}
σ(X)=D(X)
根据数学期望的性质,令
μ
=
E
(
X
)
\mu=E(X)
μ=E(X),则:
E
[
(
X
−
E
(
X
)
)
2
]
=
E
[
X
2
−
2
X
E
(
X
)
+
E
(
X
)
2
]
=
E
[
X
2
]
−
2
μ
E
(
X
)
+
μ
2
=
E
[
X
2
]
−
μ
2
E[(X-E(X))^{2}]=E[X^{2}-2XE(X)+E(X)^{2}]=E[X^{2}]-2\mu\,E(X)+\mu^{2}=E[X^{2}]-\mu^{2}
E[(X−E(X))2]=E[X2−2XE(X)+E(X)2]=E[X2]−2μE(X)+μ2=E[X2]−μ2
即:
D
(
X
)
=
E
(
X
2
)
−
(
E
[
X
]
)
2
D(X)=E(X^2)-(E[X])^2
D(X)=E(X2)−(E[X])2
2.2 方差的性质
(1)
D
(
C
)
=
0
D(C)=0
D(C)=0
(2)
D
(
C
X
)
=
C
2
D
(
X
)
D(CX)=C^{2}D(X)
D(CX)=C2D(X)
(3) 若
X
X
X与
Y
Y
Y相互独立,则
D
(
X
±
Y
)
=
D
(
X
)
+
D
(
Y
)
D(X\pm\,Y)=D(X)+D(Y)
D(X±Y)=D(X)+D(Y)
(4)
D
(
X
)
=
0
D(X)=0
D(X)=0的充要条件是
P
{
X
=
E
(
X
)
}
=
1
P\{X=E(X)\}=1
P{X=E(X)}=1
性质三的证明:
E
[
(
(
X
−
Y
)
−
E
(
X
−
Y
)
)
2
]
E[((X-Y)-E(X-Y))^{2}]
E[((X−Y)−E(X−Y))2]
=
E
[
X
2
+
Y
2
−
2
X
Y
+
E
[
X
]
2
+
E
[
Y
]
2
−
2
E
(
X
)
E
(
Y
)
−
2
X
E
(
X
)
+
2
X
E
(
Y
)
+
2
Y
E
(
Y
)
−
2
Y
E
(
Y
)
]
=E[X^{2}+Y^2-2XY+E[X]^2+E[Y]^2-2E(X)E(Y)-2XE(X)+2XE(Y)+2YE(Y)-2YE(Y)]
=E[X2+Y2−2XY+E[X]2+E[Y]2−2E(X)E(Y)−2XE(X)+2XE(Y)+2YE(Y)−2YE(Y)]
=
E
[
X
2
+
E
(
X
)
2
−
2
X
E
(
X
)
+
Y
2
+
E
(
Y
)
2
−
2
Y
E
[
Y
]
−
2
X
Y
−
2
E
[
X
]
E
[
Y
]
+
2
Y
E
[
X
]
+
2
X
E
[
Y
]
]
=E[X^2+E(X)^2-2XE(X)+Y^2+E(Y)^2-2YE[Y]-2XY-2E[X]E[Y]+2YE[X]+2XE[Y]]
=E[X2+E(X)2−2XE(X)+Y2+E(Y)2−2YE[Y]−2XY−2E[X]E[Y]+2YE[X]+2XE[Y]]
注意:
E
(
X
)
E(X)
E(X)和
E
(
Y
)
E(Y)
E(Y)是固有属性,可以看作是常数,
X
X
X和
Y
Y
Y相互独立,所以
E
(
X
Y
)
=
E
(
X
)
E
(
Y
)
E(XY)=E(X)E(Y)
E(XY)=E(X)E(Y),而
X
X
X和
X
X
X不独立,所以
E
(
X
2
)
≠
E
(
X
)
2
E(X^2)\ne E(X)^2
E(X2)=E(X)2
所以:
E
[
−
2
X
Y
−
2
E
[
X
]
E
[
Y
]
+
2
Y
E
[
X
]
+
2
X
E
[
Y
]
]
=
0
E[-2XY-2E[X]E[Y]+2YE[X]+2XE[Y]]=0
E[−2XY−2E[X]E[Y]+2YE[X]+2XE[Y]]=0
所以:
D
(
X
±
Y
)
=
D
(
X
)
+
D
(
Y
)
D(X\pm\,Y)=D(X)+D(Y)
D(X±Y)=D(X)+D(Y)
第五章 数理统计学的基本概念
前面介绍的是数学基础,从这里开始是统计学的基本内容,我这里会摘录一些统计学的基本概念,便于期望和方差在实际生活中使用统计学计算的理解。
一 总体与样本
1.1 总体及其分布
在实际应用中,把研究对象的全体元素组成的集合叫做总体或母体。总体中每个元素称为个体。
从数学角度说,总体是指数量指标可能取的各种不同数值的全体,而各种不同数值在客观上有一定的比率。我们把数量指标取不同数值的比率叫做总体分布。即客观上总体存在一个概率分布函数:
F
(
x
)
=
P
{
X
⩽
x
}
F(x)=P\{X\leqslant x\}
F(x)=P{X⩽x}
1.2 样本
从总体中取出一部分个体,这一部分个体称为样本或者子样。样本中所含个体的个数称为样本容量。取得样本的过程称为抽样。抽样过程所采取的方法称为抽样法。
在数理统计中,采用的抽样法是随机抽样法,即样本中的每一个个体是从总体中随机地取出来的。采用随机抽样法得到的样本称为随机样本。
通常,定义样本
(
X
1
,
X
2
,
.
.
.
,
X
n
)
(X_1,X_2,...,X_n)
(X1,X2,...,Xn)是n维你随机变量,这是针对具体进行一次抽样前而言。进行一次具体抽样后得到的是一族具体的实数
(
x
1
,
x
2
,
.
.
.
,
x
n
)
(x_1,x_2,...,x_n)
(x1,x2,...,xn),他是样本
(
X
1
,
X
2
,
.
.
.
,
X
n
)
(X_1,X_2,...,X_n)
(X1,X2,...,Xn)的一个观察值,称为样本值
我们抽取样本的目的是为了对总体分布进行各种分析、推断,因而要求抽取的样本能很好地反映总体的特性,这就必须对随机抽样的方法提出一定的要求,通常提出下面两点最有使用价值的要求:
1、样本的每个分量
X
i
(
i
=
1
,
2
,
.
.
.
,
n
)
X_i(i=1,2,...,n)
Xi(i=1,2,...,n)必须与总体具有相同的分布
2、样本的各分量
X
1
,
X
2
,
.
.
.
,
X
n
X_1,X_2,...,X_n
X1,X2,...,Xn是相互独立的。
具有上述两个性质的样本称为简单随机样本。获得简单随机样本的抽样方法称为简单随机抽样.
对于简单随机样本,其概率分布是由总体
X
X
X的分布完全确定的。
P
{
X
1
=
x
1
,
X
2
=
x
2
,
.
.
.
,
X
n
=
x
n
}
=
∏
i
=
1
n
P
{
X
i
=
x
i
}
P\{X_1=x_1,X_2=x_2,...,X_n=x_n\}=\prod_{i=1}^{n}P\{X_i=x_i\}
P{X1=x1,X2=x2,...,Xn=xn}=∏i=1nP{Xi=xi}
1.3 统计量
1.3.1 统计量概念
样本是我们推断总体分布的依据,利用样本进行统计推断时,第一步的工作是要把样本中所包含的关于我们所关心的事务的信息集中起来,这便是针对不同的问题构造出样本的适当函数,这种函数在统计学中称为统计量。
注意:由于统计量是样本的函数,是随机变量,因此,对于不同的样本值得到的参数估计值往往是不相同的。
定义:
设 ( X 1 , X 2 , . . . , X n ) (X_1,X_2,...,X_n) (X1,X2,...,Xn)是来自总体 X X X的一个样本, T = g ( X 1 , X 2 , . . . , X n ) T=g(X_1,X_2,...,X_n) T=g(X1,X2,...,Xn)为 ( X 1 , X 2 , . . . , X n ) (X_1,X_2,...,X_n) (X1,X2,...,Xn)的一个实值函数,且 g g g中不包含任何未知参数,则称 T T T为样本 ( X 1 , X 2 , . . . , X n ) (X_1,X_2,...,X_n) (X1,X2,...,Xn)的一个统计量。若 ( x 1 , x 2 , . . . , x n ) (x_1,x_2,...,x_n) (x1,x2,...,xn)是样本 ( X 1 , X 2 , . . . , X n ) (X_1,X_2,...,X_n) (X1,X2,...,Xn)的一个观察值,则 t = g ( x 1 , x 2 , . . . , x n ) t=g(x_1,x_2,...,x_n) t=g(x1,x2,...,xn)称为统计量 T T T的一个观察值。
1.3.2 几个常用的统计量
设 ( X 1 , X 2 , . . . , X n ) (X_1,X_2,...,X_n) (X1,X2,...,Xn)是来自总体 X X X的样本, ( x 1 , x 2 , . . . , x n ) (x_1,x_2,...,x_n) (x1,x2,...,xn)是这一样本的观察值。
1.3.2.1 样本均值
统计量:
X
ˉ
=
1
n
∑
i
=
1
n
X
i
=
1
n
(
X
1
+
X
2
+
.
.
.
+
X
n
)
\bar{X}=\dfrac{1}{n}\sum_{i=1}^nX_i=\dfrac{1}{n}(X_1+X_2+...+X_n)
Xˉ=n1∑i=1nXi=n1(X1+X2+...+Xn)
称为样本均值,其观察值记为
x
ˉ
=
1
n
∑
i
=
1
n
x
i
\bar{x}=\dfrac{1}{n}\sum_{i=1}^{n}x_i
xˉ=n1∑i=1nxi
定理:设总体
X
X
X的均值(即数学期望)
E
(
X
)
=
μ
E(X)=\mu
E(X)=μ和方差
D
(
X
)
=
σ
2
D(X)=\sigma^2
D(X)=σ2存在,则
(1)
E
(
X
ˉ
)
=
μ
E(\bar{X})=\mu
E(Xˉ)=μ
D
(
X
ˉ
)
=
σ
2
n
D(\bar{X})=\dfrac{\sigma^2}{n}
D(Xˉ)=nσ2
(2)
lim
n
→
∞
X
ˉ
=
μ
\lim_{n\rightarrow\infty}\bar{X}=\mu
limn→∞Xˉ=μ
证明:
(1) 因为
X
1
,
X
2
,
.
.
.
,
X
n
X_1,X_2,...,X_n
X1,X2,...,Xn都与
X
X
X有相同的分布,所以,
E
(
X
i
)
=
μ
E(X_i)=\mu
E(Xi)=μ,
D
(
X
i
)
=
σ
2
(
i
=
1
,
2
,
.
.
.
,
n
)
D(X_i)=\sigma^2(i=1,2,...,n)
D(Xi)=σ2(i=1,2,...,n)。又因为
X
1
,
X
2
,
.
.
.
,
X
n
X_1,X_2,...,X_n
X1,X2,...,Xn相互独立,所以
E
(
X
ˉ
)
=
1
n
∑
i
=
1
n
E
(
X
i
)
=
μ
E(\bar{X})=\dfrac{1}{n}\sum_{i=1}^{n}E(X_i)=\mu
E(Xˉ)=n1∑i=1nE(Xi)=μ
D
(
X
ˉ
)
=
D
(
∑
i
=
1
n
X
i
n
)
=
D
(
∑
i
=
1
n
X
i
)
n
2
D(\bar{X})=D(\dfrac{\sum_{i=1}^{n}X_i}{n})=\dfrac{D(\sum_{i=1}^{n}X_i)}{n^2}
D(Xˉ)=D(n∑i=1nXi)=n2D(∑i=1nXi)
因为每一次抽样是相互之间独立的,所以上面公式等于
∑
i
=
1
n
D
(
X
i
)
n
2
=
=
σ
2
n
\dfrac{\sum_{i=1}^{n}D(X_i)}{n^2}==\dfrac{\sigma^2}{n}
n2∑i=1nD(Xi)==nσ2
(2)由大数定律知成立
此定理表明,随着样本容量n的逐渐增大,样本均值
X
ˉ
\bar{X}
Xˉ以越来越大的概率落在总体均值
μ
\mu
μ的邻近,因此,样本均值常用于估计总体均值,或检验有关总体均值的假设。这里注意:样本均值不是总体分布的数学期望(总体均值)!!
1.3.2.2 样本方差和样本标准差
统计量:
S
2
=
1
n
−
1
∑
i
=
1
n
(
X
i
−
X
ˉ
)
2
S^2=\dfrac{1}{n-1}\sum_{i=1}^{n}(X_i-\bar{X})^2
S2=n−11∑i=1n(Xi−Xˉ)2
称为样本方差,其观察值记为:
s
2
=
1
n
−
1
∑
i
=
1
n
(
x
i
−
x
ˉ
)
2
s^2=\dfrac{1}{n-1}\sum_{i=1}^{n}(x_i-\bar{x})^2
s2=n−11∑i=1n(xi−xˉ)2
样本标准差
S
=
S
2
=
1
n
−
1
∑
i
=
1
n
(
X
i
−
X
ˉ
)
2
S=\sqrt{S^2}=\sqrt{\dfrac{1}{n-1}\sum_{i=1}^{n}(X_i-\bar{X})^2}
S=S2=n−11∑i=1n(Xi−Xˉ)2
定理:设总体 X X X的均值 E ( X ) = μ E(X)=\mu E(X)=μ和方差 D ( X ) = σ 2 D(X)=\sigma^2 D(X)=σ2存,则 E ( S 2 ) = σ 2 E(S^2)=\sigma^2 E(S2)=σ2
证明
E
(
S
2
)
=
E
(
1
n
−
1
∑
i
=
1
n
(
X
i
−
X
ˉ
)
2
)
=
1
n
−
1
E
(
∑
i
=
1
n
(
X
i
−
X
ˉ
)
2
)
=
1
n
−
1
E
(
∑
i
=
1
n
X
i
2
+
∑
i
=
1
n
X
ˉ
2
−
2
X
ˉ
∑
i
=
1
n
X
i
)
=
1
n
−
1
E
(
∑
i
=
1
n
X
i
2
−
n
X
ˉ
2
)
=
1
n
−
1
(
∑
i
=
1
n
E
(
X
i
2
)
−
n
E
(
X
ˉ
2
)
)
E(S^2)=E(\dfrac{1}{n-1}\sum_{i=1}^{n}(X_i-\bar{X})^2)=\dfrac{1}{n-1}E(\sum_{i=1}^{n}(X_i-\bar{X})^2)=\dfrac{1}{n-1}E(\sum_{i=1}^{n}X_i^2+\sum_{i=1}^{n}\bar{X}^2-2\bar{X}\sum_{i=1}^{n}X_i)=\dfrac{1}{n-1}E(\sum_{i=1}^{n}X_i^2-n\bar{X}^2)=\dfrac{1}{n-1}(\sum_{i=1}^{n}E(X_i^2)-nE(\bar{X}^2))
E(S2)=E(n−11∑i=1n(Xi−Xˉ)2)=n−11E(∑i=1n(Xi−Xˉ)2)=n−11E(∑i=1nXi2+∑i=1nXˉ2−2Xˉ∑i=1nXi)=n−11E(∑i=1nXi2−nXˉ2)=n−11(∑i=1nE(Xi2)−nE(Xˉ2))
注意:样本均值不是总体分布的数学期望(总体均值)!!样本均值是一个变量,它随着样本容量n的逐渐增大,样本均值
X
ˉ
\bar{X}
Xˉ以越来越大的概率落在总体均值
μ
\mu
μ的邻近。
因为:
E
(
X
i
2
)
=
D
(
X
i
)
+
E
(
X
i
)
2
=
σ
2
+
μ
2
E(X_i^2)=D(X_i)+E(X_i)^2=\sigma^2+\mu^2
E(Xi2)=D(Xi)+E(Xi)2=σ2+μ2
E
(
X
ˉ
2
)
=
D
(
X
ˉ
)
+
E
(
X
ˉ
)
2
=
σ
2
n
+
μ
2
E(\bar{X}^2)=D(\bar{X})+E(\bar{X})^2=\dfrac{\sigma^2}{n}+\mu^2
E(Xˉ2)=D(Xˉ)+E(Xˉ)2=nσ2+μ2
所以,上式等于:
1
n
−
1
(
∑
i
=
1
n
E
(
X
i
2
)
−
n
E
(
X
ˉ
2
)
)
=
1
n
−
1
(
n
σ
2
+
n
μ
2
−
σ
2
−
n
μ
2
)
=
σ
2
\dfrac{1}{n-1}(\sum_{i=1}^{n}E(X_i^2)-nE(\bar{X}^2))=\dfrac{1}{n-1}(n\sigma^2+n\mu^2-\sigma^2-n\mu^2)=\sigma^2
n−11(∑i=1nE(Xi2)−nE(Xˉ2))=n−11(nσ2+nμ2−σ2−nμ2)=σ2
证明了样本方差是总体方差的无偏估计量,无偏的概念后文中有介绍
第六章 数理统计学的基本概念
参数估计:所谓参数估计是指由样本对总体中的(未知)参数作出估计。参数全部可容许值组成的集合称为参数空间,记为
Θ
\Theta
Θ。另外,在有些实际问题中,事先并不知道总体
X
X
X的分布类型,而要对其某些数字特征,如均值
E
(
X
)
E(X)
E(X)、方差
D
(
X
)
D(X)
D(X)等作出估计。通常,我们把这些数字特征也称为参数,这些问题也属于参数估计问题。
参数估计有点估计与区间估计两种方式。
6.1 点估计
6.1.1 估计量概念
估计量是关于样本的适当函数。
一般地,设总体
X
X
X的分布函数是
F
(
x
;
θ
1
,
θ
2
,
.
.
.
,
θ
l
)
F(x;\theta_1,\theta_2,...,\theta_l)
F(x;θ1,θ2,...,θl),其中
θ
1
,
θ
2
,
.
.
.
,
θ
l
\theta_1,\theta_2,...,\theta_l
θ1,θ2,...,θl是待估计的未知参数,
(
X
1
,
X
2
,
.
.
.
,
X
n
)
(X_1,X_2,...,X_n)
(X1,X2,...,Xn)是来自总体
X
X
X的样本,
(
x
1
,
x
2
,
.
.
.
,
x
n
)
(x_1,x_2,...,x_n)
(x1,x2,...,xn)是相应的样本值,点估计问题就是要构造
l
l
l个适当的统计量
θ
i
^
(
X
1
,
X
2
,
.
.
.
,
X
n
)
(
i
=
1
,
2
,
.
.
.
,
l
)
\hat{\theta_i}(X_1,X_2,...,X_n)(i=1,2,...,l)
θi^(X1,X2,...,Xn)(i=1,2,...,l),分别用观察值
θ
^
i
(
x
1
,
x
2
,
.
.
.
,
x
n
)
\hat\theta_i(x_1,x_2,...,x_n)
θ^i(x1,x2,...,xn)作为未知参数
θ
i
\theta_i
θi的估计值。
注意:由于估计量是样本的函数,是随机变量,因此,对于不同的样本值得到的参数估计值往往是不相同的。
6.1.2 估计量的求法
点估计量的求法有许多种,下面主要介绍常用的两种方法:矩估计法和极大似然估计法。
1、矩估计法:
设总体
X
X
X的分布中含有
l
l
l个待估计的未知参数:
θ
1
,
θ
2
,
.
.
.
,
θ
l
\theta_1,\theta_2,...,\theta_l
θ1,θ2,...,θl,求出
X
X
X的
l
l
l个原点矩,要求它们都是
θ
1
,
θ
2
,
.
.
.
,
θ
l
\theta_1,\theta_2,...,\theta_l
θ1,θ2,...,θl的函数。不妨设总体
X
X
X的前
l
l
l阶矩
a
k
=
E
(
X
k
)
(
k
=
1
,
2
,
.
.
.
,
l
)
a_k=E(X^k)(k=1,2,...,l)
ak=E(Xk)(k=1,2,...,l)存在,且都是
θ
1
,
θ
2
,
.
.
.
,
θ
l
\theta_1,\theta_2,...,\theta_l
θ1,θ2,...,θl的函数,即
a
k
=
a
k
(
θ
1
,
θ
2
,
.
.
.
,
θ
l
)
(
k
=
1
,
2
,
.
.
.
,
l
)
a_k=a_k(\theta_1,\theta_2,...,\theta_l) (k=1,2,...,l)
ak=ak(θ1,θ2,...,θl)(k=1,2,...,l)
把上面各式中的总体矩用相应的样本矩代替,未知参数用其估计量代替,得:
a
k
(
θ
1
^
,
θ
2
^
,
.
.
.
,
θ
l
^
)
=
A
k
(
k
=
1
,
2
,
.
.
.
,
l
)
a_k(\hat{\theta_1},\hat{\theta_2},...,\hat{\theta_l})=A_k (k=1,2,...,l)
ak(θ1^,θ2^,...,θl^)=Ak(k=1,2,...,l)
解此方程组可得
θ
1
^
,
θ
2
^
,
.
.
.
,
θ
l
^
\hat{\theta_1},\hat{\theta_2},...,\hat{\theta_l}
θ1^,θ2^,...,θl^,并将它们作为
θ
1
,
θ
2
,
.
.
.
,
θ
l
\theta_1,\theta_2,...,\theta_l
θ1,θ2,...,θl的估计量。这种求估计量的方法称为矩估计法,简称矩法。用矩估计法求得的估计量称为矩估计量。
矩估计法的理论依据是大数定律,当样本容量充分大时,样本矩
A
k
A_k
Ak以很大的概率落在总体矩
a
k
a_k
ak的邻近,因而可用
A
k
A_k
Ak作为
a
k
a_k
ak的矩估计量。
2、极大似然估计法:
极大似然估计方法就是利用总体
X
X
X的分布函数
F
(
x
;
θ
1
,
θ
2
,
.
.
.
,
θ
l
)
F(x;\theta_1,\theta_2,...,\theta_l)
F(x;θ1,θ2,...,θl)的已知表达式及样本所提供的信息,来建立未知参数
θ
i
\theta_i
θi的估计量
θ
i
^
(
X
1
,
X
2
,
.
.
.
,
X
n
)
(
i
=
1
,
2
,
.
.
.
,
l
)
\hat{\theta_i}(X_1,X_2,...,X_n)(i=1,2,...,l)
θi^(X1,X2,...,Xn)(i=1,2,...,l)。
定义 如果总体
X
X
X是离散型或连续行随机变量,其分布律为
P
{
X
=
x
}
=
p
(
x
;
θ
1
,
θ
2
,
.
.
.
,
θ
l
)
P\{X=x\}=p(x;\theta_1,\theta_2,...,\theta_l)
P{X=x}=p(x;θ1,θ2,...,θl)
或概率密度为:
f
(
x
;
θ
1
,
θ
2
,
.
.
.
,
θ
l
)
f(x;\theta_1,\theta_2,...,\theta_l)
f(x;θ1,θ2,...,θl)
其中,
θ
1
,
θ
2
,
.
.
.
,
θ
l
\theta_1,\theta_2,...,\theta_l
θ1,θ2,...,θl为未知参数,在参数空间
Θ
\Theta
Θ内取值,变元
x
x
x在随机变量
X
X
X的可能取值范围内取值。设
(
X
1
,
X
2
,
.
.
.
,
X
n
)
(X_1,X_2,...,X_n)
(X1,X2,...,Xn)是来自总体
X
X
X的样本,则
(
X
1
,
X
2
,
.
.
.
,
X
n
)
(X_1,X_2,...,X_n)
(X1,X2,...,Xn)的联合分布律为:
L
(
x
1
,
x
2
,
.
.
.
,
x
n
;
θ
1
,
θ
2
,
.
.
.
,
θ
l
)
=
P
{
X
=
x
1
,
X
2
=
x
2
,
.
.
.
,
X
n
=
x
n
}
=
∏
i
=
1
n
p
(
x
;
θ
1
,
θ
2
,
.
.
.
,
θ
l
)
L(x_1,x_2,...,x_n;\theta_1,\theta_2,...,\theta_l)=P\{X=x_1,X_2=x_2,...,X_n=x_n\}=\prod_{i=1}^{n}p(x;\theta_1,\theta_2,...,\theta_l)
L(x1,x2,...,xn;θ1,θ2,...,θl)=P{X=x1,X2=x2,...,Xn=xn}=∏i=1np(x;θ1,θ2,...,θl)
或联合概率密度为:
L
(
x
1
,
x
2
,
.
.
.
,
x
n
;
θ
1
,
θ
2
,
.
.
.
,
θ
l
)
=
∏
i
=
1
n
f
(
x
i
;
θ
1
,
θ
2
,
.
.
.
,
θ
l
)
L(x_1,x_2,...,x_n;\theta_1,\theta_2,...,\theta_l)=\prod_{i=1}^{n}f(x_i;\theta_1,\theta_2,...,\theta_l)
L(x1,x2,...,xn;θ1,θ2,...,θl)=∏i=1nf(xi;θ1,θ2,...,θl)
上式也被称为似然函数,似然函数的对数称为对数似然函数。
极大似然估计法就是当得到样本值
(
x
1
,
x
2
,
.
.
.
,
x
n
)
(x_1,x_2,...,x_n)
(x1,x2,...,xn)时,选取使似然函数
L
(
x
1
,
x
2
,
.
.
.
,
x
n
;
θ
1
,
θ
2
,
.
.
.
,
θ
l
)
L(x_1,x_2,...,x_n;\theta_1,\theta_2,...,\theta_l)
L(x1,x2,...,xn;θ1,θ2,...,θl)取得最大值的
θ
1
^
,
θ
2
^
,
.
.
.
,
θ
l
^
\hat{\theta_1},\hat{\theta_2},...,\hat{\theta_l}
θ1^,θ2^,...,θl^,分别作为未知参数
θ
1
,
θ
2
,
.
.
.
,
θ
l
\theta_1,\theta_2,...,\theta_l
θ1,θ2,...,θl的估计值。
这样得到的
θ
1
^
,
θ
2
^
,
.
.
.
,
θ
l
^
\hat{\theta_1},\hat{\theta_2},...,\hat{\theta_l}
θ1^,θ2^,...,θl^与样本值
(
x
1
,
x
2
,
.
.
.
,
x
n
)
(x_1,x_2,...,x_n)
(x1,x2,...,xn)有关,记为
θ
i
^
=
θ
i
^
(
x
1
,
x
2
,
.
.
.
,
x
n
)
\hat{\theta_i}=\hat{\theta_i}(x_1,x_2,...,x_n)
θi^=θi^(x1,x2,...,xn),并称为参数
θ
i
(
i
=
1
,
2
,
.
.
.
,
l
)
\theta_i(i=1,2,...,l)
θi(i=1,2,...,l)的极大似然估计值,而相应的统计量
θ
i
^
(
X
1
,
X
2
,
.
.
.
,
X
n
)
(
i
=
1
,
2
,
.
.
.
,
l
)
\hat{\theta_i}(X_1,X_2,...,X_n)(i=1,2,...,l)
θi^(X1,X2,...,Xn)(i=1,2,...,l)称为参数
θ
i
\theta_i
θi的极大似然估计量。
由于
l
n
x
lnx
lnx是
x
x
x的单调上升函数,因此
l
n
L
(
θ
1
,
θ
2
,
.
.
.
,
θ
l
)
lnL(\theta_1,\theta_2,...,\theta_l)
lnL(θ1,θ2,...,θl)与
L
(
θ
1
,
θ
2
,
.
.
.
,
θ
l
)
L(\theta_1,\theta_2,...,\theta_l)
L(θ1,θ2,...,θl)有相同的极大值点,因此,可以等价地选取使对数似然函数
l
n
L
(
x
1
,
x
2
,
.
.
.
,
x
n
;
θ
1
,
θ
2
,
.
.
.
,
θ
l
)
lnL(x_1,x_2,...,x_n;\theta_1,\theta_2,...,\theta_l)
lnL(x1,x2,...,xn;θ1,θ2,...,θl)取得最大值的
θ
1
^
,
θ
2
^
,
.
.
.
,
θ
l
^
\hat{\theta_1},\hat{\theta_2},...,\hat{\theta_l}
θ1^,θ2^,...,θl^,分别作为未知参数
θ
1
,
θ
2
,
.
.
.
,
θ
l
\theta_1,\theta_2,...,\theta_l
θ1,θ2,...,θl的估计值。
很多情形下,似然函数和对数似然函数关于
θ
1
,
θ
2
,
.
.
.
,
θ
l
\theta_1,\theta_2,...,\theta_l
θ1,θ2,...,θl的偏导数存在,此时
θ
1
^
,
θ
2
^
,
.
.
.
,
θ
l
^
\hat{\theta_1},\hat{\theta_2},...,\hat{\theta_l}
θ1^,θ2^,...,θl^可以从方程组
∂
L
(
θ
1
,
θ
2
,
.
.
.
,
θ
l
)
∂
θ
j
=
0
(
j
=
1
,
2
,
.
.
.
,
l
)
\dfrac{\partial{L(\theta_1,\theta_2,...,\theta_l)}}{\partial{\theta_j}}=0(j=1,2,...,l)
∂θj∂L(θ1,θ2,...,θl)=0(j=1,2,...,l)
或方程组
∂
l
n
L
(
θ
1
,
θ
2
,
.
.
.
,
θ
l
)
∂
θ
j
=
0
(
j
=
1
,
2
,
.
.
.
,
l
)
\dfrac{\partial{lnL(\theta_1,\theta_2,...,\theta_l)}}{\partial{\theta_j}}=0(j=1,2,...,l)
∂θj∂lnL(θ1,θ2,...,θl)=0(j=1,2,...,l)
上面两个方程组分别称为似然方程和对数似然方程。
6.1.3 估计量的评选标准
6.1.3.1 无偏性
估计量是随机变量,对于不同的样本值就会得到不同的估计值。这样,我们要确定一个估计量的好坏,不能仅仅依据某次抽样的结果来衡量,而必须由多次抽样的结果来衡量。
无偏性:尽管在一次抽样中得到的估计值不一定恰好等于待估计的参数真值,但在大量重复抽样(样本容量相同)时,所得到的估计值平均起来应该与待估计的参数真值相同,这就是无偏性的要求。
定义:设
(
X
1
,
X
2
,
.
.
.
,
X
n
)
(X_1,X_2,...,X_n)
(X1,X2,...,Xn)是来自总体
X
X
X的一个样本,
θ
\theta
θ是包含在
X
X
X的分布中的未知参数,
θ
\theta
θ的取值范围为
Θ
\Theta
Θ,
θ
^
=
θ
^
(
X
1
,
X
2
,
.
.
.
,
X
n
)
\hat{\theta}=\hat{\theta}(X_1,X_2,...,X_n)
θ^=θ^(X1,X2,...,Xn)是
θ
\theta
θ的一个估计量。如果对任意
θ
∈
Θ
\theta\in\Theta
θ∈Θ有:
E
(
θ
^
)
=
θ
E(\hat{\theta})=\theta
E(θ^)=θ
则称
θ
^
\hat{\theta}
θ^是
θ
\theta
θ的一个无偏估计量。
一个估计量如果不是无偏的就称它是有偏估计量,并且称
E
(
θ
^
)
−
θ
E(\hat{\theta})-\theta
E(θ^)−θ为估计量
θ
^
\hat{\theta}
θ^的偏差或简称为偏。
如果
E
(
θ
^
)
−
θ
≠
0
E(\hat{\theta})-\theta\ne0
E(θ^)−θ=0,但是当样本容量
n
→
∞
n\to\infty
n→∞时,有
l
i
m
n
→
∞
[
E
(
θ
^
)
−
θ
]
=
0
lim_{n\to\infty}[E(\hat{\theta})-\theta]=0
limn→∞[E(θ^)−θ]=0
则称
θ
^
\hat{\theta}
θ^为
θ
\theta
θ的渐进无偏估计量。
6.1.3.2 有效性
有效性:衡量一个参数的两个无偏估计量哪个更好的标准,应该看它们谁的取值更集中,即方差更小。
定义:设
(
X
1
,
X
2
,
.
.
.
,
X
n
)
(X_1,X_2,...,X_n)
(X1,X2,...,Xn)是来自总体
X
X
X的样本,
θ
\theta
θ是
X
X
X的分布中包含的待估参数,
θ
^
=
θ
^
(
X
1
,
X
2
,
.
.
.
,
X
n
)
\hat{\theta}=\hat{\theta}(X_1,X_2,...,X_n)
θ^=θ^(X1,X2,...,Xn)和
θ
^
∗
=
θ
^
∗
(
X
1
,
X
2
,
.
.
.
,
X
n
)
\hat{\theta}^*=\hat{\theta}^*(X_1,X_2,...,X_n)
θ^∗=θ^∗(X1,X2,...,Xn)都是
θ
\theta
θ的无偏估计量,如果
D
(
θ
^
)
<
=
D
(
θ
^
∗
)
D(\hat{\theta})<=D(\hat{\theta}^*)
D(θ^)<=D(θ^∗)
即
E
[
(
θ
^
−
θ
)
2
]
<
=
E
[
(
θ
^
∗
−
θ
)
2
]
E[(\hat{\theta}-\theta)^{2}]<=E[(\hat{\theta}^*-\theta)^{2}]
E[(θ^−θ)2]<=E[(θ^∗−θ)2]
则称
θ
^
\hat{\theta}
θ^较
θ
^
∗
\hat{\theta}^*
θ^∗有效。