随机变量分类
- 离散型随机变量
- 连续型随机变量
随机变量的矩:
X是一个随机变量对于任何正整数n,定义
E
(
X
n
)
=
∫
p
(
x
)
x
n
d
x
E(X^n)=\int p(x)x^ndx
E(Xn)=∫p(x)xndx
- 一阶矩:n=1,E(X)期望(原点矩)
- 二阶矩:n=2, E ( X 2 ) − E ( X ) 2 E(X^2)-E(X)^2 E(X2)−E(X)2方差 (中心矩)
特征函数:
ϕ
X
(
t
)
=
E
(
e
i
t
X
)
\phi_X(t)=E(e^{itX})
ϕX(t)=E(eitX)=
∑
n
=
0
∞
E
(
X
n
)
n
!
(
i
t
)
n
\sum_{n=0}^{∞}\frac{E(X^n)}{n!} (it)^n
∑n=0∞n!E(Xn)(it)n
更多关于特征函数
协方差:(多个随机变量之间的关系)
X,Y为两个独立随机变量,协方差为0
E
(
x
,
y
)
=
∫
y
∫
x
x
y
p
(
x
,
y
)
d
x
d
y
=
∫
y
p
(
y
)
∫
x
p
(
x
)
d
x
d
y
=
∫
y
p
(
y
)
E
(
x
)
d
y
=
E
(
x
)
∫
y
p
(
y
)
d
y
=
E
(
x
)
E
(
y
)
{ E(x,y)=∫_y∫_xxyp(x,y)dxdy = ∫yp(y)∫xp(x)dxdy = ∫yp(y)E(x)dy =E(x) ∫yp(y)dy =E(x)E(y) }
E(x,y)=∫y∫xxyp(x,y)dxdy=∫yp(y)∫xp(x)dxdy=∫yp(y)E(x)dy=E(x)∫yp(y)dy=E(x)E(y)
c o v ( x , y ) = E ( x y ) − E ( x ) E ( y ) = 0 { cov(x,y) = E(xy)-E(x)E(y) = 0} cov(x,y)=E(xy)−E(x)E(y)=0
x,y的相关系数(夹角cosα)
c
o
v
(
x
,
y
)
/
v
a
r
(
x
)
v
a
r
(
y
)
{cov(x,y)/\sqrt{var(x)var(y)}}
cov(x,y)/var(x)var(y)
概率分布与特征函数的关系:
对于任何X,
ϕ
x
(
t
)
都
存
在
\phi_x(t)都存在
ϕx(t)都存在
ϕ
(
0
)
=
E
(
e
0
)
=
1
,
且
∣
ϕ
(
t
)
∣
≤
1
,
∀
t
\phi(0)=E(e^0)=1,且\mid\phi(t)\mid\leq1,\forall t
ϕ(0)=E(e0)=1,且∣ϕ(t)∣≤1,∀t,
ϕ
(
t
)
是
一
致
连
续
函
数
\phi(t)是一致连续函数
ϕ(t)是一致连续函数,
ϕ
X
(
t
)
=
ϕ
−
X
(
t
)
,
所
以
如
果
X
关
于
中
心
对
称
,
那
么
ϕ
X
(
t
)
就
是
一
个
实
函
数
\phi_X(t)=\phi_-X(t),所以如果X关于中心对称,那么\phi_X(t)就是一个实函数
ϕX(t)=ϕ−X(t),所以如果X关于中心对称,那么ϕX(t)就是一个实函数
如
果
X
的
n
阶
矩
存
在
,
那
么
ϕ
X
(
t
)
至
少
n
阶
可
微
,
并
且
E
(
X
n
)
=
(
−
i
)
n
ϕ
(
n
)
(
0
)
如果X的n阶矩存在,那么\phi_X(t)至少n阶可微,并且E(X^n)=(-i)^n\phi^{(n)}(0)
如果X的n阶矩存在,那么ϕX(t)至少n阶可微,并且E(Xn)=(−i)nϕ(n)(0)
如
果
X
,
Y
是
两
个
独
立
随
机
变
量
,
那
么
ϕ
X
+
Y
(
t
)
=
ϕ
X
(
t
)
ϕ
Y
(
t
)
如果X,Y是两个独立随机变量,那么\phi_{X+Y}(t)=\phi_X(t)\phi_Y(t)
如果X,Y是两个独立随机变量,那么ϕX+Y(t)=ϕX(t)ϕY(t)
如
果
ϕ
X
(
t
)
=
ϕ
Y
(
t
)
,
那
么
X
,
Y
服
从
同
一
个
分
布
如果\phi_X(t)=\phi_Y(t),那么X,Y服从同一个分布
如果ϕX(t)=ϕY(t),那么X,Y服从同一个分布
如
果
X
n
是
一
个
随
机
变
量
序
列
,
而
且
ϕ
x
n
(
t
)
逐
点
收
敛
于
一
个
函
数
ϕ
∞
(
t
)
,
如
果
ϕ
∞
(
t
)
在
0
处
连
续
,
那
么
存
在
一
个
分
布
X
∞
(
t
)
,
使
得
X
n
按
分
布
收
敛
于
X
∞
(
t
)
如果{X_n}是一个随机变量序列,而且\phi_{x_n}(t)逐点收敛于一个函数\phi_∞(t),如果\phi_∞(t)在0处连续,那么存在一个分布X_∞(t),使得X_n按分布收敛于X_∞(t)
如果Xn是一个随机变量序列,而且ϕxn(t)逐点收敛于一个函数ϕ∞(t),如果ϕ∞(t)在0处连续,那么存在一个分布X∞(t),使得Xn按分布收敛于X∞(t)
特殊分布的特征函数:
独
点
分
布
p
(
a
)
=
1
,
ϕ
(
t
)
=
e
i
a
t
独点分布p(a)=1,\phi(t)=e^{iat}
独点分布p(a)=1,ϕ(t)=eiat
两
点
分
布
p
(
−
1
)
=
p
(
1
)
=
1
/
2
,
ϕ
(
t
)
=
c
o
s
(
t
)
两点分布p(-1)=p(1)=1/2,\phi(t)=cos(t)
两点分布p(−1)=p(1)=1/2,ϕ(t)=cos(t)
正
态
分
布
,
概
率
密
度
函
数
f
(
x
)
=
1
2
Π
e
−
x
2
2
,
ϕ
(
t
)
=
e
−
t
2
2
正态分布,概率密度函数f(x)=\frac{1}{\sqrt{2}Π}e^{-\frac{x^2}{2}},\phi(t)=e^{-\frac{t^2}{2}}
正态分布,概率密度函数f(x)=2Π1e−2x2,ϕ(t)=e−2t2
泊
松
分
布
p
(
n
)
=
e
−
λ
λ
n
n
!
,
ϕ
(
t
)
=
e
−
λ
(
1
−
e
i
t
)
泊松分布p(n)=e^{-\lambda}\frac{\lambda^n}{n!},\phi(t)=e^{-\lambda(1-e^{it})}
泊松分布p(n)=e−λn!λn,ϕ(t)=e−λ(1−eit)
重要极限:
l
i
m
n
→
∞
(
1
+
1
/
n
)
n
存
在
,
且
定
义
e
=
l
i
m
n
→
∞
(
1
+
1
/
n
)
n
,
于
是
定
义
e
x
=
l
i
m
n
→
∞
(
1
+
x
/
n
)
n
,
l
i
m
n
→
∞
(
1
+
x
/
n
)
n
=
l
i
m
n
→
∞
[
(
1
+
x
/
n
)
n
/
x
]
x
=
l
i
m
n
→
∞
[
(
1
+
1
/
m
)
m
]
x
=
e
x
{lim_{n\to\infty} (1+1/n)^n }存在,且定义e = lim_{n\to\infty} (1+1/n)^n,于是定义e^x = lim_{n\to\infty} (1+x/n)^n, lim_{n\to\infty} (1+x/n)^n = lim_{n\to\infty} [(1+x/n)^{n/x}]^x = lim_{n\to\infty} [(1+1/m)^m]^x = e^x
limn→∞(1+1/n)n存在,且定义e=limn→∞(1+1/n)n,于是定义ex=limn→∞(1+x/n)n,limn→∞(1+x/n)n=limn→∞[(1+x/n)n/x]x=limn→∞[(1+1/m)m]x=ex
大数定律:
平均值收敛于期望
X是随机变量,μ是X的期望, σ \sigma σ是X的方差, { X k } k = 1 ∞ \{X_k\}_{k=1}^{∞} {Xk}k=1∞
是服从X的独立同分布随机变量,那么
X
‾
n
=
∑
k
=
1
n
X
k
n
\overline{X}_n=\frac{\sum_{k=1}^{n}X_k}{n}
Xn=n∑k=1nXk依概率收敛于μ。也就是说对于任何
ε
\varepsilon
ε>0有
lim
x
→
∞
P
(
∣
X
‾
n
−
μ
∣
>
ε
)
=
0
\lim_{x\to\infty}P(\mid\overline{X}_n-μ\mid>\varepsilon)=0
x→∞limP(∣Xn−μ∣>ε)=0
因为X具有一阶矩,所以特征函数
ϕ
X
(
t
)
存
在
一
阶
泰
勒
展
开
ϕ
X
(
t
)
=
1
+
i
μ
t
+
o
(
t
)
\phi_X(t)存在一阶泰勒展开\phi_X(t)=1+iμt+o(t)
ϕX(t)存在一阶泰勒展开ϕX(t)=1+iμt+o(t),于是
ϕ
X
‾
(
t
)
=
E
(
e
x
p
(
i
t
∑
i
=
1
n
x
i
n
)
)
=
∏
i
=
1
n
E
(
e
x
p
(
i
t
X
/
n
)
)
=
(
1
+
i
μ
t
/
n
+
o
(
t
/
n
)
n
)
\phi_{\overline{X}}(t)=E(exp(it\frac{\sum_{i=1}^{n}x_i}{n}))=\prod_{i=1}^{n}E(exp(itX/n))=(1+iμt/n+o(t/n)^n)
ϕX(t)=E(exp(itn∑i=1nxi))=i=1∏nE(exp(itX/n))=(1+iμt/n+o(t/n)n)
于是
lim
n
→
∞
ϕ
X
‾
(
t
)
=
lim
n
→
∞
(
1
+
i
μ
t
/
n
+
o
(
t
/
n
)
)
n
\lim_{n\to\infty}\phi_{\overline{X}}(t)=\lim_{n\to\infty}(1+iμt/n+o(t/n))^n
n→∞limϕX(t)=n→∞lim(1+iμt/n+o(t/n))n
这就是独点分布的特征函数,所以
X
‾
\overline{X}
X按分布收敛于独点分布。
收敛于一个常数,因为
lim
x
→
∞
P
(
∣
X
‾
n
−
μ
∣
>
ε
)
=
0
\lim_{x\to\infty}P(\mid\overline{X}_n-μ\mid>\varepsilon)=0
x→∞limP(∣Xn−μ∣>ε)=0
X
‾
\overline{X}
X收敛于一个常数,所以
X
‾
\overline{X}
X=μ,也就是验证了
平均值收敛于期望值
中心极限定理:
X是随机变量, ϕ ( X ) \phi(X) ϕ(X)是X的特征函数, { X k } k = 1 ∞ \{X_k\}_{k=1}^{∞} {Xk}k=1∞
是服从X的独立同分布随机变量,那么
服从正态分布
z
n
=
x
σ
(
x
n
‾
μ
)
z_n = \frac{\sqrt{x}}{\sigma}(\overline{x_n} μ)
zn=σx(xnμ)
依分布收敛于正态分布N(0,1)
也就是说对于任何
ε
\varepsilon
ε>0有
lim
n
→
∞
P
(
Z
n
<
z
)
=
Φ
(
z
)
,
∀
z
\lim_{n\to\infty}P(Z_n<z)=\Phi(z),\forall z
n→∞limP(Zn<z)=Φ(z),∀z
其中
Φ
\Phi
Φ是标准正态分布的分布函数。
x的二阶泰勒展开式
ϕ
x
(
t
)
=
1
+
i
μ
t
−
σ
2
t
2
+
o
(
t
2
)
{\phi x(t) = 1 + iμt - \frac{{\sigma}}{2} t^2 + o(t^2) }
ϕx(t)=1+iμt−2σt2+o(t2)
令
Y
=
(
x
−
μ
)
/
σ
令 Y = (x-μ)/\sigma
令Y=(x−μ)/σ
E
(
Y
)
=
E
[
x
−
μ
σ
]
=
1
σ
E
(
x
−
μ
)
=
1
σ
(
E
(
X
)
−
μ
=
0
{E(Y)= E[\frac{{x-μ}}{\sigma}] =\frac{{1}}{\sigma}E(x-μ) = \frac{{1}}{\sigma}(E(X)-μ} =0
E(Y)=E[σx−μ]=σ1E(x−μ)=σ1(E(X)−μ=0
E
(
Y
2
)
=
E
(
x
−
μ
σ
)
2
=
1
σ
2
[
E
(
X
2
)
−
2
μ
E
(
x
)
+
μ
2
]
=
1
σ
2
[
E
(
X
2
)
−
μ
2
]
=
1
σ
2
σ
2
=
1
{E(Y^2) = E(\frac{{x-μ}}{\sigma})^2 =\frac{{1}}{\sigma^2}[E(X^2) -2μE(x)+μ^2]= \frac{{1}}{\sigma^2}[E(X^2)-μ^2]}= \frac{{1}}{\sigma^2}\sigma^2=1
E(Y2)=E(σx−μ)2=σ21[E(X2)−2μE(x)+μ2]=σ21[E(X2)−μ2]=σ21σ2=1
则,
E
(
Y
)
=
0
,
E
(
Y
2
)
=
1
,
于
是
有
E(Y)=0,E(Y^2)=1,于是有
E(Y)=0,E(Y2)=1,于是有
ϕ
Y
(
t
)
=
1
−
1
2
t
2
+
o
(
t
2
)
\phi_Y(t)=1- \frac{1}{2}t^2+o(t^2)
ϕY(t)=1−21t2+o(t2)
因为
Z
n
=
n
Y
‾
Z_n = {\sqrt{n}}\overline{Y}
Zn=nY,所以
ϕ
Z
n
(
t
)
=
E
(
e
x
p
(
i
t
∑
i
=
1
n
Y
i
/
n
)
)
=
(
1
−
1
2
n
t
2
+
o
(
t
2
/
n
)
)
n
\phi_{Z_n(t)}=E(exp(it\sum_{i=1}^{n}Y_i/\sqrt{n}))=(1-\frac{1}{2n}t^2+o(t^2/n))^n
ϕZn(t)=E(exp(iti=1∑nYi/n))=(1−2n1t2+o(t2/n))n
Z
n
=
n
∑
i
=
1
n
Y
i
,
最
后
就
是
1
n
Y
i
,
把
ϕ
Y
(
t
)
的
t
换
成
t
/
n
就
是
Z
n
的
函
数
方
程
Z_n =\sqrt{n}\sum_{i=1}^{n}Y_i,最后就是\frac{1}{\sqrt{n}}Y_i,把\phi_Y(t) 的t换成t/\sqrt{n}就是Z_n的函数方程
Zn=n∑i=1nYi,最后就是n1Yi,把ϕY(t)的t换成t/n就是Zn的函数方程
于是
lim
n
→
∞
ϕ
z
n
(
t
)
=
lim
n
→
∞
(
1
−
t
2
2
n
+
o
(
t
2
/
n
)
)
n
=
e
−
1
2
t
2
\lim_{n\to\infty}\phi_{z_n}(t)=\lim_{n\to\infty}(1- \frac{t^2}{2n}+o(t^2/n))^n=e^{-\frac{1}{2}t^2}
n→∞limϕzn(t)=n→∞lim(1−2nt2+o(t2/n))n=e−21t2
是一个正态分布的特征函数,所以
Z
n
Z_n
Zn按分布收敛于正态分布。
参数估计
- 点估计
矩估计
极大似然估计 - 区间估计
点估计性质:
相合性
:当样本数量趋于无穷时,估计量收敛于参数真实值。
例:当我们求解参数
θ
\theta
θ的方程时,为什么最大值就是参数的值?
求
θ
0
\theta_0
θ0,求极大值,就是要证明
θ
0
\theta_0
θ0就是极大值。
最大化参数函数方程
l
x
(
θ
)
l_x(\theta)
lx(θ),也就是最大化
1
n
l
x
(
θ
)
{ \frac{1}{n}l_x(\theta)}
n1lx(θ)是一样的。
1
n
l
x
(
θ
)
=
1
n
∑
i
=
1
n
l
x
i
(
θ
)
=
1
n
∑
i
=
1
n
l
n
(
f
θ
(
x
i
)
)
{{ \frac{1}{n}l_x(\theta)}=\frac{1}{n}\sum_{i=1}^{n}l_{x_i}(\theta)= \frac{1}{n}\sum_{i=1}^{n}l_n(f_\theta(x_i))}
n1lx(θ)=n1i=1∑nlxi(θ)=n1i=1∑nln(fθ(xi))
这个无穷求和就收敛于期望(大数定律)
E
(
l
n
(
f
θ
(
x
)
)
)
=
∫
x
l
n
(
f
θ
(
x
)
)
f
θ
0
(
x
)
d
x
E(l_n(f_\theta(x)))=∫_xl_n(f_\theta(x))f_{\theta_0}(x)dx
E(ln(fθ(x)))=∫xln(fθ(x))fθ0(x)dx
f
θ
(
x
)
是
一
个
函
数
,
f
θ
0
(
x
)
是
个
值
f_\theta(x)是一个函数,f_{\theta_0}(x)是个值
fθ(x)是一个函数,fθ0(x)是个值
而
θ
^
\hat{\theta}
θ^是
1
n
l
x
(
θ
)
\frac{1}{n}l_x(\theta)
n1lx(θ)的极大值点,所以
l
i
m
θ
^
收
敛
于
E
(
l
n
(
f
θ
(
x
)
)
)
的
极
大
值
点
lim\hat{\theta}收敛于 E(l_n(f_\theta(x)))的极大值点
limθ^收敛于E(ln(fθ(x)))的极大值点
所以我们只需要证明
θ
0
\theta_0
θ0确定是
E
(
l
n
(
f
θ
(
x
)
)
)
E(l_n(f_\theta(x)))
E(ln(fθ(x)))的极大值点,因为
l
n
(
x
)
是
个
凹
函
数
,
根
据
琴
生
不
等
式
我
们
有
:
l_n(x)是个凹函数,根据琴生不等式我们有:
ln(x)是个凹函数,根据琴生不等式我们有:
∫
x
l
n
(
f
θ
(
x
)
)
f
θ
0
(
x
)
d
x
−
∫
x
l
n
(
f
θ
0
(
x
)
)
f
θ
0
(
x
)
d
x
=
∫
x
l
n
(
f
θ
(
x
)
/
f
θ
0
(
x
)
)
f
θ
0
(
x
)
d
x
≤
l
n
(
∫
x
f
θ
(
x
)
f
θ
0
(
x
)
f
θ
0
(
x
)
d
x
)
=
l
n
(
∫
x
f
θ
(
x
)
d
x
)
=
l
n
(
1
)
=
0
{∫_xl_n(f_\theta(x))f_{\theta_0}(x)dx-∫_xl_n(f_{\theta_0}(x))f_{\theta_0} (x)dx}=∫_xl_n(f_\theta(x)/f{\theta_0}(x))f_{\theta_0}(x)dx \leq l_n(∫_x \frac{f_\theta(x)}{f_{\theta_0}(x)}f_{\theta_0}(x)dx)=ln(∫_xf_\theta(x)dx)=ln(1)=0
∫xln(fθ(x))fθ0(x)dx−∫xln(fθ0(x))fθ0(x)dx=∫xln(fθ(x)/fθ0(x))fθ0(x)dx≤ln(∫xfθ0(x)fθ(x)fθ0(x)dx)=ln(∫xfθ(x)dx)=ln(1)=0
所以:
E
(
l
n
(
f
θ
(
x
)
)
)
−
E
(
l
n
(
f
θ
0
(
x
)
)
)
≤
0
E(l_n(f_\theta(x)))-E(l_n(f_{\theta_0}(x)))\leq 0
E(ln(fθ(x)))−E(ln(fθ0(x)))≤0
θ
0
就
是
E
(
l
n
(
f
θ
(
x
)
)
的
极
大
值
点
\theta_0就是E(l_n(f_\theta(x))的极大值点
θ0就是E(ln(fθ(x))的极大值点
所以求解参数方程的极大值就是求参数的真实值。
无偏性
:对于有限的样本,估计量所符合的分布之期望等于参数真实值。
例:方差的估计:
E
(
1
n
∑
i
=
1
n
(
x
i
−
x
‾
)
2
)
=
E
(
1
n
∑
i
=
1
n
(
x
i
−
μ
+
μ
−
x
‾
)
2
)
=
E
(
1
n
∑
i
=
1
n
(
x
i
−
μ
)
2
)
−
E
(
(
μ
−
x
‾
)
2
)
=
E
(
(
x
i
−
μ
)
2
)
−
E
(
(
μ
−
x
‾
)
2
)
=
σ
2
−
v
a
r
(
(
x
‾
)
)
≤
σ
2
E( \frac{1}{n}\sum_{i=1}^{n}(x_i-\overline{x})^2)=E( \frac{1}{n}\sum_{i=1}^{n}(x_i-μ+μ-\overline{x})^2)=E( \frac{1}{n}\sum_{i=1}^{n}(x_i-μ)^2)-E((μ-\overline{x})^2)=E((x_i-μ)^2)-E((μ-\overline{x})^2)=\sigma^2 -var((\overline{x}))\leq\sigma^2
E(n1i=1∑n(xi−x)2)=E(n1i=1∑n(xi−μ+μ−x)2)=E(n1i=1∑n(xi−μ)2)−E((μ−x)2)=E((xi−μ)2)−E((μ−x)2)=σ2−var((x))≤σ2
E
(
(
x
i
−
μ
)
2
)
=
E
(
x
i
2
−
2
μ
x
i
+
μ
2
)
=
E
(
x
i
2
)
−
2
μ
E
(
x
i
)
+
μ
2
=
E
(
x
)
2
−
μ
2
=
σ
2
E((x_i-μ)^2) = E(x_i^2-2μx_i +μ^2)=E(x_i^2)-2μE(x_i)+μ^2=E(x)^2-μ2=\sigma^2
E((xi−μ)2)=E(xi2−2μxi+μ2)=E(xi2)−2μE(xi)+μ2=E(x)2−μ2=σ2
E
(
1
n
∑
i
=
1
n
(
x
i
−
μ
+
μ
−
x
‾
)
2
n
)
=
∑
i
=
1
n
(
x
i
−
μ
)
2
n
+
∑
i
=
1
n
(
μ
−
x
‾
)
2
n
+
∑
i
=
1
n
2
(
x
i
−
μ
)
(
μ
−
x
‾
)
n
=
E
(
1
n
∑
i
=
1
n
(
x
i
−
μ
)
2
)
+
E
(
(
μ
−
x
‾
)
2
)
+
(
−
2
E
(
μ
−
x
‾
)
2
)
E( \frac{1}{n}\sum_{i=1}^{n}\frac{(x_i-μ+μ-\overline{x})^2}{n})=\sum_{i=1}^{n}\frac{(x_i-μ)^2}{n}+\sum_{i=1}^{n}\frac{(μ-\overline{x})^2}{n}+\sum_{i=1}^{n}\frac{2(x_i-μ)(μ-\overline{x})}{n}= E(\frac{1}{n}\sum_{i=1}^{n}(x_i-μ)^2)+E((μ-\overline{x})^2)+(-2E(μ-\overline{x})^2)
E(n1i=1∑nn(xi−μ+μ−x)2)=i=1∑nn(xi−μ)2+i=1∑nn(μ−x)2+i=1∑nn2(xi−μ)(μ−x)=E(n1i=1∑n(xi−μ)2)+E((μ−x)2)+(−2E(μ−x)2)
E
(
2
(
μ
−
x
‾
)
∑
i
=
1
n
(
(
x
i
−
μ
)
n
)
=
E
(
2
(
μ
−
x
‾
)
(
x
‾
−
μ
)
)
=
−
2
E
(
μ
−
x
‾
)
2
E(2(μ-\overline{x})\sum_{i=1}^{n}( \frac{(x_i-μ)}{n})=E(2(μ-\overline{x})(\overline{x}-μ))=-2E(μ-\overline{x})^2
E(2(μ−x)i=1∑n(n(xi−μ))=E(2(μ−x)(x−μ))=−2E(μ−x)2
所以我们倾向于低估
σ
2
\sigma^2
σ2,那么我们低估的这个值
v
a
r
(
(
x
‾
)
)
var((\overline{x}))
var((x))等于多少?
令
Y
i
=
X
i
−
μ
Y_i=X_i-μ
Yi=Xi−μ,那么
x
‾
−
μ
=
Y
‾
\overline{x}-μ=\overline{Y}
x−μ=Y,所以
E
(
(
μ
−
x
‾
)
2
)
=
E
(
(
Y
‾
)
2
)
E((μ-\overline{x})^2)=E((\overline{Y})^2)
E((μ−x)2)=E((Y)2)
Y的特征函数是
ϕ
Y
(
t
)
=
e
x
p
(
−
t
2
σ
2
2
)
\phi _Y(t)=exp(\frac{-t^2\sigma^2}{2})
ϕY(t)=exp(2−t2σ2)
所以
ϕ
Y
‾
(
t
)
=
(
e
x
p
(
−
t
2
σ
2
2
n
2
)
)
n
=
e
x
p
(
−
t
2
(
σ
/
n
)
2
2
)
\phi _{\overline{Y}}(t)=(exp( \frac{-t^2\sigma^2}{2n^2}))^n=exp( \frac{-t^2(\sigma/\sqrt{n})^2}{2})
ϕY(t)=(exp(2n2−t2σ2))n=exp(2−t2(σ/n)2)
ϕ
Y
‾
(
t
)
=
E
(
e
x
p
(
i
t
Y
‾
)
)
=
E
(
e
∑
k
=
1
n
Y
k
n
i
t
)
=
E
(
∏
k
=
1
n
e
Y
k
n
i
t
)
=
∏
k
=
1
n
E
(
e
Y
k
n
i
t
)
=
∏
k
=
1
n
Φ
Y
k
(
t
n
)
=
(
ϕ
Y
(
(
t
n
)
)
n
\phi _{\overline{Y}}(t)=E(exp(it\overline{Y}))=E(e^{\sum_{k=1}^{n}\frac{Y_k}{n}it})=E(\prod_{k=1}^ne^{\frac{Y_k}{n}it})=\prod_{k=1}^nE(e^{\frac{Y_k}{n}it})=\prod_{k=1}^n\Phi _{Y_k}(\frac{t}{n})=(\phi _Y((\frac{t}{n}))^n
ϕY(t)=E(exp(itY))=E(e∑k=1nnYkit)=E(k=1∏nenYkit)=k=1∏nE(enYkit)=k=1∏nΦYk(nt)=(ϕY((nt))n
于是:
v
a
r
(
x
‾
)
=
v
a
r
(
Y
‾
)
=
σ
2
/
n
var(\overline{x})=var(\overline{Y})=\sigma^2/n
var(x)=var(Y)=σ2/n,所以
E
(
1
n
∑
i
=
1
n
(
x
i
−
x
‾
)
2
=
σ
2
−
v
a
r
(
(
x
‾
)
)
=
σ
2
−
σ
2
/
n
=
n
−
1
n
σ
2
E(\frac{1}{n}\sum_{i=1}^{n}(x_i-\overline{x})^2=\sigma^2 -var((\overline{x}))=\sigma^2-\sigma^2/n=\frac{n-1}{n}\sigma^2
E(n1∑i=1n(xi−x)2=σ2−var((x))=σ2−σ2/n=nn−1σ2
因此,
1
n
−
1
∑
i
=
1
n
(
x
i
−
x
‾
)
2
才
是
σ
2
的
无
偏
估
计
值
。
\frac{1}{n-1}\sum_{i=1}^{n}(x_i-\overline{x})^2才是\sigma^2的无偏估计值。
n−11∑i=1n(xi−x)2才是σ2的无偏估计值。
另一种方法:中误差
假设误差:
Δ
i
=
l
i
−
X
…
\Delta_i=l_i-X\dots
Δi=li−X… ①
将各式取和再除以次数n,
[
Δ
]
n
=
l
n
−
X
\frac{[\Delta]}{n}=\frac{l}{n}-X
n[Δ]=nl−X,
然后平方:
[
Δ
Δ
]
n
2
=
(
x
‾
−
x
)
2
\frac{[\Delta\Delta]}{{n}^2}=(\overline{x}-x)^2
n2[ΔΔ]=(x−x)2
改正数:
v
i
=
x
‾
−
l
i
…
v_i=\overline{x}-l_i\dots
vi=x−li…②
由于①②得:
Δ
i
=
−
v
i
+
(
x
‾
−
x
)
\Delta_i=-v_i+(\overline{x}-x)
Δi=−vi+(x−x)
[ Δ Δ ] n = [ v v ] n + 2 ( x ‾ − x ) [ v ] n + ( x ‾ − x ) 2 \frac{[\Delta\Delta]}{{n}}=\frac{[vv]}{{n}}+\frac{2(\overline{x}-x)[v]}{n}+(\overline{x}-x)^2 n[ΔΔ]=n[vv]+n2(x−x)[v]+(x−x)2
由于改正值之和为0, [ v ] = 0 [v]=0 [v]=0
[ Δ Δ ] n 2 = ( x ‾ − x ) 2 \frac{[\Delta\Delta]}{{n}^2}=(\overline{x}-x)^2 n2[ΔΔ]=(x−x)2
[ Δ Δ ] n = [ v v ] n + ( x ‾ − x ) 2 \frac{[\Delta\Delta]}{{n}}=\frac{[vv]}{{n}}+(\overline{x}-x)^2 n[ΔΔ]=n[vv]+(x−x)2
[ Δ Δ ] n = [ v v ] n + [ Δ Δ ] n 2 \frac{[\Delta\Delta]}{{n}}=\frac{[vv]}{{n}}+\frac{[\Delta\Delta]}{{n}^2} n[ΔΔ]=n[vv]+n2[ΔΔ]
[ Δ Δ ] n − [ Δ Δ ] n 2 = [ v v ] n \frac{[\Delta\Delta]}{{n}}-\frac{[\Delta\Delta]}{{n}^2}=\frac{[vv]}{{n}} n[ΔΔ]−n2[ΔΔ]=n[vv]
n [ Δ Δ ] n 2 − [ Δ Δ ] n 2 = [ v v ] n \frac{n[\Delta\Delta]}{{n}^2}-\frac{[\Delta\Delta]}{{n}^2}=\frac{[vv]}{{n}} n2n[ΔΔ]−n2[ΔΔ]=n[vv]
( n − 1 ) [ Δ Δ ] n 2 = [ v v ] n \frac{(n-1)[\Delta\Delta]}{{n}^2}=\frac{[vv]}{{n}} n2(n−1)[ΔΔ]=n[vv]
[ Δ Δ ] n = [ v v ] n − 1 \frac{[\Delta\Delta]}{{n}}=\frac{[vv]}{{n-1}} n[ΔΔ]=n−1[vv]
m 2 = [ v v ] n − 1 m^2=\frac{[vv]}{{n-1}} m2=n−1[vv]
m = [ v v ] n − 1 m=\sqrt{\frac{[vv]}{{n-1}}} m=n−1[vv]
有效性
:如果两个参数估计量
θ
^
,
θ
ˇ
\hat{\theta},\check{\theta}
θ^,θˇ既是相合的,又是无偏的,那么他们两个中方差较小的那一个比较好,如果
v
a
r
(
θ
^
)
≥
v
a
r
(
θ
ˇ
)
var(\hat{\theta}) \geq var(\check{\theta})
var(θ^)≥var(θˇ),那么我们就认为
θ
ˇ
\check{\theta}
θˇ比较好。
例:
设
x
1
…
…
x
n
x_1\dots\dots x_n
x1……xn,来自均值为μ,方差为
σ
2
\sigma^2
σ2的总体分布的简单样本,
ω
1
…
…
ω
n
\omega_1\dots \dots \omega_n
ω1……ωn为已知的非负权值,且满足
∑
ω
i
=
1
\sum \omega_i=1
∑ωi=1,试比较μ两个估计
x
‾
和
∑
i
=
1
n
ω
i
的
大
小
\overline{x}和\sum_{i=1}^{n}\omega_i的大小
x和∑i=1nωi的大小:
因为
v
a
r
(
x
‾
)
=
σ
2
n
,
v
a
r
(
∑
ω
i
x
i
)
=
∑
i
=
1
n
ω
i
2
σ
2
var(\overline{x})=\frac{\sigma^2}{n},var(\sum\omega_ix_i )=\sum_{i=1}^{n}\omega_i^2\sigma^2
var(x)=nσ2,var(∑ωixi)=∑i=1nωi2σ2,也就是求
1
n
≤
∑
i
=
1
n
ω
i
2
\frac{1}{n}\leq\sum_{i=1}^{n}\omega_i^2
n1≤∑i=1nωi2,由于柯西不等式:
∑
i
=
1
n
a
i
2
∑
i
=
1
n
b
i
2
≥
(
∑
i
=
1
n
a
i
b
i
)
2
\sum_{i=1}^{n}a_i^2\sum_{i=1}^{n}b_i^2\geq(\sum_{i=1}^{n}a_ib_i)^2
∑i=1nai2∑i=1nbi2≥(∑i=1naibi)2,令
a
i
=
1
,
b
i
=
ω
i
a_i=1,b_i=\omega_i
ai=1,bi=ωi,
(
1
+
⋯
+
1
)
(
ω
1
2
+
⋯
+
ω
n
2
)
≥
(
ω
1
+
⋯
+
ω
n
)
2
(1+\dots +1)(\omega_1^2+\dots+\omega_n^2)\geq(\omega_1+\dots+\omega_n)^2
(1+⋯+1)(ω12+⋯+ωn2)≥(ω1+⋯+ωn)2
n
∑
ω
i
2
≥
1
(
权
重
之
和
为
1
)
n\sum\omega_i^2\geq1(权重之和为1)
n∑ωi2≥1(权重之和为1)
所以:
∑
ω
i
2
≥
1
n
\sum\omega_i^2\geq\frac{1}{n}
∑ωi2≥n1,也就说明了
v
a
r
(
x
‾
)
是
更
好
的
var(\overline{x})是更好的
var(x)是更好的
渐进正态性
当样本趋于无穷时,去中心化去量纲化的估计量符合标准正态分布。