概率论第四章复习。
数学期望
含义
时间平均: a 1 + ⋯ + a n n \dfrac{a_1+\cdots+a_n}{n} na1+⋯+an,独立重复试验,n次观测值的算术平均。
空间平均:在空间的不同位置 x i x_i xi,在这个位置的概率or权重: p i p_i pi,期望体现为 ∑ k x k p k \sum_kx_kp_k ∑kxkpk.
这两种含义是相等的:
1
n
(
a
1
+
⋯
+
a
n
)
=
∑
k
x
k
p
k
\dfrac{1}n(a_1+\cdots+a_n) = \sum_kx_kp_k
n1(a1+⋯+an)=k∑xkpk
离散型
定义
定义4.1.1 若 ∑ k ∣ x k ∣ p k < ∞ \sum_k|x_k|p_k<\infty ∑k∣xk∣pk<∞,则称 ∑ k x k p k \sum_kx_kp_k ∑kxkpk为 X X X的数学期望,记为 E X EX EX.
如果级数不绝对收敛,都称期望不存在。不过可以推广定义:如果级数的正部和负部不全为无穷,则可以定义广义的数学期望。这样保证了期望不是一个不定式(无穷-无穷)。
期望本质上是一个分布的数字特征,从离散型的角度来看,分布列确定了,期望就是确定的。
举例
Bernoulli分布
E 1 A = P ( A ) E_{1_A}=P(A) E1A=P(A).
这边考虑同分布的随机变量:示性函数。
Possion分布
首先说明,泊松分布的期望一定是有良定的,因为随机变量取非负整数值,负部级数为0。
E
X
=
e
−
λ
∑
k
=
1
∞
k
λ
k
k
!
=
λ
e
−
λ
∑
k
=
1
∞
λ
k
−
1
(
k
−
1
)
!
=
λ
EX = e^{-\lambda}\sum_{k=1}^\infty k\dfrac{\lambda^k}{k!} = \lambda e^{-\lambda}\sum_{k=1}^\infty\dfrac{\lambda^{k-1}}{(k-1)!}=\lambda
EX=e−λk=1∑∞kk!λk=λe−λk=1∑∞(k−1)!λk−1=λ
非负随机变量的期望
引出一个取非负整数值随机变量的期望求法:
E
X
=
∑
k
=
0
∞
k
p
k
=
∑
k
=
1
∞
∑
n
=
1
k
p
k
=
∑
n
=
1
∞
∑
k
=
n
∞
p
k
=
∑
n
=
1
∞
P
(
X
≥
n
)
=
∑
n
=
0
∞
P
(
X
>
n
)
EX = \sum_{k=0}^\infty kp_k = \sum_{k=1}^\infty\sum_{n=1}^k p_k = \sum_{n=1}^\infty\sum_{k=n}^\infty p_k = \sum_{n=1}^\infty P(X\ge n) =\sum_{n=0}^\infty P(X>n)
EX=k=0∑∞kpk=k=1∑∞n=1∑kpk=n=1∑∞k=n∑∞pk=n=1∑∞P(X≥n)=n=0∑∞P(X>n)
几何分布
E X = ∑ n = 0 ∞ ( 1 − p ) n = 1 p EX = \sum_{n=0}^\infty (1-p)^n = \frac1p EX=n=0∑∞(1−p)n=p1
连续型
定义4.1.2 若 ∫ ∣ x ∣ p ( x ) d x < ∞ \int|x|p(x)dx<\infty ∫∣x∣p(x)dx<∞,则称 ∫ x p ( x ) d x \int xp(x)dx ∫xp(x)dx为 X X X的数学期望,记为 E X . EX. EX.
同样可以引出推广的数学期望。
非负随机变量的期望
先证明一个引理:
lim
x
→
∞
x
G
(
x
)
=
0
\lim_{x\to\infty}xG(x)=0
limx→∞xG(x)=0
∫
x
∞
y
p
(
y
)
d
y
≥
x
∫
x
∞
p
(
y
)
d
y
=
x
G
(
x
)
\int_x^\infty yp(y)dy \ge x\int_x^\infty p(y)dy =xG(x)
∫x∞yp(y)dy≥x∫x∞p(y)dy=xG(x)
由夹逼原理,
lim
x
→
0
x
G
(
x
)
=
0
\lim_{x\to0}xG(x)=0
limx→0xG(x)=0.
那么
E
X
=
∫
0
∞
x
p
(
x
)
d
x
=
∫
0
∞
x
d
(
−
G
(
x
)
)
=
−
x
G
(
x
)
∣
0
∞
+
∫
0
∞
G
(
x
)
d
x
=
∫
0
∞
G
(
x
)
d
x
EX = \int_0^\infty xp(x)dx = \int_0^\infty x d(-G(x)) = -xG(x)|_{0}^\infty +\int_0^\infty G(x)dx=\int_0^\infty G(x)dx
EX=∫0∞xp(x)dx=∫0∞xd(−G(x))=−xG(x)∣0∞+∫0∞G(x)dx=∫0∞G(x)dx
指数分布
若
X
∼
E
x
p
(
λ
)
,
X\sim Exp(\lambda),
X∼Exp(λ),
E
X
=
∫
0
∞
e
−
λ
x
d
x
=
1
λ
EX = \int_0^\infty e^{-\lambda x}dx = \frac1\lambda
EX=∫0∞e−λxdx=λ1
柯西分布
p ( x ) − 1 π 1 x 2 + 1 p(x)-\frac1\pi \frac{1}{x^2+1} p(x)−π1x2+11期望不存在。
一般情形
介绍性质。我们直接使用尾分布函数去定义非负随机变量的期望:
E
Y
=
∫
0
∞
G
(
x
)
d
x
EY = \int_0^\infty G(x)dx
EY=∫0∞G(x)dx
定义4.1.3 若 X ≥ 0 X\ge0 X≥0,称 ∫ 0 ∞ P ( X > x ) d x \int_0^\infty P(X>x)dx ∫0∞P(X>x)dx为 X X X的数学期望,记为 E X EX EX.如果 E X + , E X − EX^+,EX^- EX+,EX−不全为无穷,则称 E X : = E X + − E X − EX:=EX^+-EX^- EX:=EX+−EX−为 X X X的期望。
如果 X X X有界: P ( ∣ X ∣ ≤ M ) = 1 P(|X|\le M)=1 P(∣X∣≤M)=1,那么期望一定存在(考虑定义)。
期望是分布的数字特征:直接利用尾分布函数。
函数的期望
离散型: E f ( X ) = ∑ k f ( x k ) p k , E f ( X → ) = ∑ k f ( x → k ) p k Ef(X) = \sum_k f(x_k)p_k,\ Ef(\overrightarrow X) = \sum_k f(\overrightarrow x_k)p_k Ef(X)=∑kf(xk)pk, Ef(X)=∑kf(xk)pk.
连续型: E f ( X ) = ∫ f ( x ) p ( x ) d x , E f ( X → ) = ∫ f ( x → ) p ( x → ) d x → Ef(X) = \int f(x)p(x) dx, Ef(\overrightarrow X) = \int f(\overrightarrow x)p(\overrightarrow x)d\overrightarrow x Ef(X)=∫f(x)p(x)dx,Ef(X)=∫f(x)p(x)dx.
数学期望的性质
-
由期望的时间平均含义:
a. X ≡ c \equiv c ≡c,则 E X ≡ C EX\equiv C EX≡C.
b. 单调性。 X ≥ Y X\ge Y X≥Y,则 E X ≥ E Y EX\ge EY EX≥EY.
c. 线性。 E ( a X ) = a E X , E ( X + Y ) = E ( X ) + E ( Y ) E(aX)=aEX,E(X+Y) = E(X)+E(Y) E(aX)=aEX,E(X+Y)=E(X)+E(Y).
-
若 X ≥ 0 , X\ge 0, X≥0,且 E X = 0 EX = 0 EX=0,则 X = 0 X = 0 X=0
0 = E X ≥ E X 1 X > 1 n ≥ 1 n P ( X ≥ 1 n ) , P ( X ≥ 1 n ) ≥ P ( X > 0 ) 0 = EX \ge EX1_{X>\frac1n}\ge \frac1nP(X\ge\frac1n),P(X\ge\frac1n)\ge P(X>0) 0=EX≥EX1X>n1≥n1P(X≥n1),P(X≥n1)≥P(X>0) -
若 X ≥ 0 , E X < ∞ , X\ge 0,EX<\infty, X≥0,EX<∞,则
lim x → ∞ x G ( x ) = lim x → ∞ E X 1 { X > x } = 0 \lim_{x\to\infty}xG(x) = \lim_{x\to\infty} EX1_{\{X>x\}} = 0 x→∞limxG(x)=x→∞limEX1{X>x}=0
第二个等号:
E X 1 { X > x } = ∫ 0 ∞ P ( X 1 { X > x } > y ) d y = ∫ 0 ∞ P ( X > x , X > y ) d y = ∫ 0 x P ( X > x ) d y + ∫ x ∞ P ( X > y ) d y → x G ( x ) = 0 EX1_{\{X>x\}} = \int_{0}^\infty P(X1_{\{X>x\}}> y) dy = \int_0^\infty P(X>x,X>y)dy = \int_0^x P(X>x)dy+\int_x^\infty P(X>y)dy \to xG(x)=0 EX1{X>x}=∫0∞P(X1{X>x}>y)dy=∫0∞P(X>x,X>y)dy=∫0xP(X>x)dy+∫x∞P(X>y)dy→xG(x)=0 -
相互独立,则 E ( X Y ) = E ( X ) E ( Y ) E(XY) = E(X)E(Y) E(XY)=E(X)E(Y).
证明很简单,考虑函数 f ( X , Y ) = X Y f(X,Y) = XY f(X,Y)=XY的数学期望。
-
Jensen不等式:对任意凸函数 f f f,有 E f ( x ) ≥ f ( E X ) . Ef(x)\ge f(EX). Ef(x)≥f(EX).比如 E ∣ X ∣ ≥ ∣ E X ∣ , E X 2 ≥ ( E X ) 2 E|X|\ge|EX|,EX^2\ge(EX)^2 E∣X∣≥∣EX∣,EX2≥(EX)2.
正态分布的期望
标准正态的期望很简单。由于密度函数是偶函数,所以均值为0.
再次证明一个服从
N
(
μ
,
σ
2
)
N(\mu,\sigma^2)
N(μ,σ2)的普通正态变量,
X
∗
=
X
−
μ
σ
X^*=\dfrac{X-\mu}{\sigma}
X∗=σX−μ为一个标准正态变量。利用变换公式:
p
X
∗
(
y
)
=
p
X
(
σ
y
+
μ
)
1
σ
=
1
2
π
e
−
y
2
2
p_{X^*}(y) = p_{X}(\sigma y + \mu)\frac{1}\sigma = \frac{1}{\sqrt{2\pi}}e^{-\dfrac{y^2}{2}}
pX∗(y)=pX(σy+μ)σ1=2π1e−2y2
由期望的线性,
E
X
=
μ
EX = \mu
EX=μ.更一般地,任意
W
:
=
a
+
b
X
W:=a+bX
W:=a+bX都是正态变量,即正态变量的非退化线性变换还是正态变量。
随机数目的期望
X = 1 A 1 + ⋯ + 1 A n , E X = ∑ i = 1 n P ( A i ) X=1_{A_{1}}+\cdots+1_{A_{n}},EX = \sum_{i=1}^n P(A_i) X=1A1+⋯+1An,EX=i=1∑nP(Ai)
可以把二项分布看做 n n n次独立重复试验,每次试验的结果就是一个参数为 p p p的伯努利分布(示性函数),于是 E X = n p . EX = np. EX=np.
对于比较难以直接求解的超几何分布的期望,也可以这样看:第 i i i次抽签看做试验 A i A_i Ai,抽中次品为1,否则为0。由于抽签与顺序无关,抽中与否的概率都相等,因此 E 1 A i = p = M N E1_{A_i} = p = \dfrac M N E1Ai=p=NM。从而 E X = n M N EX = \dfrac{nM}{N} EX=NnM.
可交换随机变量的期望
考察服从
U
(
0
,
1
)
U(0,1)
U(0,1)的顺序统计量
U
(
1
)
,
⋯
,
U
(
n
)
U_{(1)},\cdots,U_{(n)}
U(1),⋯,U(n)生成的随机变量
Y
1
,
⋯
,
Y
n
+
1
.
Y_1,\cdots,Y_{n+1}.
Y1,⋯,Yn+1.则由之前的结论,
(
Y
1
,
⋯
,
Y
n
+
1
)
(Y_1,\cdots,Y_{n+1})
(Y1,⋯,Yn+1)是可交换随机变量。于是对它们同时作用一个函数
f
(
x
→
)
:
=
x
1
∑
i
x
i
f(\overrightarrow x) := \dfrac{x_1}{\sum_i x_i}
f(x):=∑ixix1
则
E
Y
1
Y
1
+
⋯
+
Y
n
+
1
=
μ
E\dfrac{Y_1}{Y_1+\cdots+Y_{n+1}} = \mu
EY1+⋯+Yn+1Y1=μ
期望存在是因为它有界。由可交换性,
E
Y
i
Y
1
+
⋯
+
Y
n
+
1
=
μ
,
i
=
1
,
2
,
⋯
,
n
+
1
E\dfrac{Y_i}{Y_1+\cdots+Y_{n+1}} = \mu,i = 1,2,\cdots,n+1
EY1+⋯+Yn+1Yi=μ,i=1,2,⋯,n+1
因此
(
n
+
1
)
μ
=
E
∑
i
Y
i
∑
i
Y
i
=
1
⇒
μ
=
1
n
+
1
(n+1)\mu = E\dfrac{\sum_i Y_i}{\sum_i Y_i}=1\Rightarrow \mu = \frac{1}{n+1}
(n+1)μ=E∑iYi∑iYi=1⇒μ=n+11
而且
Y
1
+
Y
2
+
⋯
+
Y
n
+
1
=
1
Y_1+Y_2+\cdots+Y_{n+1} = 1
Y1+Y2+⋯+Yn+1=1
故
E
Y
i
=
1
n
+
1
,
E
(
U
(
n
)
−
U
(
1
)
)
=
Y
2
+
⋯
+
Y
n
=
n
−
1
n
+
1
.
EY_i = \frac1{n+1},E(U_{(n)} - U_{(1)}) = Y_2+\cdots+Y_n = \dfrac{n-1}{n+1}.
EYi=n+11,E(U(n)−U(1))=Y2+⋯+Yn=n+1n−1.
最优预测1
令 f ( x ) = E ( X − x ) 2 f(x) = E(X-x)^2 f(x)=E(X−x)2,则 m i n f ( x ) = f ( E X ) = E ( X − E X ) 2 = E X 2 − ( E X ) 2 minf(x) = f(EX) = E(X-EX)^2 = EX^2-(EX)^2 minf(x)=f(EX)=E(X−EX)2=EX2−(EX)2.
s
o
l
u
t
i
o
n
.
solution.
solution.假设
a
a
a是
f
(
x
)
f(x)
f(x)的最小值点。
f
(
x
)
=
E
(
X
−
a
+
a
−
x
)
2
=
E
(
X
−
a
)
2
+
(
a
−
x
)
2
+
2
(
a
−
x
)
E
(
X
−
a
)
f(x) = E(X-a+a-x)^2 = E(X-a)^2 + (a-x)^2 + 2(a-x)E(X-a)
f(x)=E(X−a+a−x)2=E(X−a)2+(a−x)2+2(a−x)E(X−a)
$if\ f(x)\ge f(a) = E(X-a)^2,\ then\ $
(
a
−
x
)
2
+
2
(
a
−
x
)
E
(
X
−
a
)
≥
0
,
∀
x
∈
R
(a-x)^2 + 2(a-x)E(X-a) \ge 0, \forall x \in R
(a−x)2+2(a−x)E(X−a)≥0,∀x∈R
则由二次函数的性质,
E
(
X
−
a
)
=
0.
E(X-a) = 0.
E(X−a)=0.即
E
X
=
a
EX = a
EX=a.
代入可得, f ( x ) ≥ f ( E X ) = E X 2 − ( E X ) 2 f(x)\ge f(EX) = EX^2-(EX)^2 f(x)≥f(EX)=EX2−(EX)2.
方差、相关系数和矩
方差
定义
定义4.2.1 4.2.5 假设 E X 2 EX^2 EX2存在,则称 E ( X − E X ) 2 E(X-EX)^2 E(X−EX)2为 X X X的方差。(二阶矩存在则一阶矩存在),记为 V a r ( X ) o r D ( X ) Var(X)orD(X) Var(X)orD(X),称 σ X : = v a r ( X ) \sigma_X:=\sqrt{var(X)} σX:=var(X)为 X X X的标准差/均方差。称 E X k , E ( X − E X ) k , E e a X EX^k,E(X-EX)^k,Ee^{aX} EXk,E(X−EX)k,EeaX为(原点)矩/中心矩/指数矩。
方差同样是分布的数字特征,确定了分布,就确定了方差。
方差的含义指的是:权重的分散程度。如果 v a r ( X ) = 0 var(X) = 0 var(X)=0,则 X = a . s . E X X\overset{a.s.}=EX X=a.s.EX.
在取非负整数值的情况,我们常常这样计算方差: v a r ( X ) = E X 2 − ( E X ) 2 var(X) = EX^2-(EX)^2 var(X)=EX2−(EX)2.
作线性变换的过程中, v a r ( a X + b ) = E ( a X + b − a E x − b ) 2 = a 2 E ( X − E X ) 2 var(aX+b) = E(aX+b-aEx-b)^2 = a^2E(X-EX)^2 var(aX+b)=E(aX+b−aEx−b)2=a2E(X−EX)2.
任何随机变量都可以通过标准化化为均值为0,方差为1的标准变量: X ∗ = X − μ σ . X^*=\dfrac{X-\mu}{\sigma}. X∗=σX−μ.
举例
-
Bernoulli分布: X 2 = X , v a r ( X ) = E X 2 − ( E X ) 2 = p − p 2 = p q . X^2 = X, var(X) = EX^2-(EX)^2 = p-p^2 = pq. X2=X,var(X)=EX2−(EX)2=p−p2=pq.
-
随机数目: X = 1 A 1 + ⋯ + 1 A n , X 2 = ∑ i , j 1 A i A j , E X 2 = ∑ i , j P ( A i A j ) X = 1_{A_1}+\cdots+1_{A_n},X^2 = \sum_{i,j}1_{A_iA_j},EX^2 = \sum_{i,j}P(A_iA_j) X=1A1+⋯+1An,X2=∑i,j1AiAj,EX2=∑i,jP(AiAj)
-
泊松分布: E X ( X − 1 ) = ∑ k = 2 n k ( k − 1 ) e − λ λ k k ! = e − λ λ 2 e λ = λ 2 EX(X-1) = \sum_{k=2}^n k(k-1)e^{-\lambda}\dfrac{\lambda^k}{k!} = e^{-\lambda}\lambda^{2}e^\lambda = \lambda^2 EX(X−1)=∑k=2nk(k−1)e−λk!λk=e−λλ2eλ=λ2.
故 E X 2 = λ 2 + λ , v a r ( X ) = λ . EX^2 = \lambda^2+\lambda,var(X) = \lambda. EX2=λ2+λ,var(X)=λ.
-
均匀分布: E X 2 = ∫ 0 1 x 2 d x = 1 3 , v a r ( X ) = 1 12 E X^2 = \int_0^1 x^2dx = \frac13,var(X) = \frac1{12} EX2=∫01x2dx=31,var(X)=121.
-
正态分布:
E Z 2 = 2 2 π ∫ 0 ∞ x 2 e − x 2 2 d x = 2 2 π ∫ 0 ∞ ( − x ) d e − x 2 2 = 2 2 π ∫ 0 ∞ e − x 2 2 d x = 1. v a r ( Z ) = 1. EZ^2 = \frac{2}{\sqrt{2\pi}}\int_0^\infty x^2e^{-\frac{x^2}{2}}dx = \frac{2}{\sqrt{2\pi}}\int_0^{\infty}(-x)de^{-\frac{x^2}{2}}=\frac{2}{\sqrt{2\pi}}\int_0^\infty e^{-\frac{x^2}{2}}dx=1.\\ var(Z) = 1. EZ2=2π2∫0∞x2e−2x2dx=2π2∫0∞(−x)de−2x2=2π2∫0∞e−2x2dx=1.var(Z)=1.
X ∼ N ( μ , σ ) , E X = E ( σ Z + μ ) = μ , v a r X = σ 2 . X\sim N(\mu,\sigma),EX=E(\sigma Z+\mu)=\mu,varX=\sigma^2. X∼N(μ,σ),EX=E(σZ+μ)=μ,varX=σ2.
不等式们
1. Chebyshev Inequality
P ( ∣ X − E X ∣ ≥ ϵ ) ≤ v a r X ϵ 2 , ∀ ϵ > 0. P(|X-EX|\ge \epsilon)\le \dfrac{var X}{\epsilon^2},\forall \epsilon>0. P(∣X−EX∣≥ϵ)≤ϵ2varX,∀ϵ>0.
令 A = { ∣ X − E X ∣ ≥ ϵ } A = \{|X-EX|\ge \epsilon\} A={∣X−EX∣≥ϵ}。目标:寻找 Y , s . t . Y ≥ 1 A Y,s.t. Y\ge 1_A Y,s.t.Y≥1A,则 E Y ≥ P ( A ) . EY\ge P(A). EY≥P(A).
随便找一个非负的 Y Y Y,当 A A A发生的时候, Y ≥ 1 Y\ge 1 Y≥1。可以找 Y = ( X − E X ) 2 ϵ 2 , ( X − E X ) 4 ϵ 4 Y = \dfrac{(X-EX)^2}{\epsilon^2},\dfrac{(X-EX)^4}{\epsilon^4} Y=ϵ2(X−EX)2,ϵ4(X−EX)4.
利用这种方式估计的,都可以称为chebyshev inequality。比如
$$
- C\ge0,P(X\ge C)\le EX/C.\
- P(X\ge C)\le Ee^{a(X-C)},a>0
$$
2.Cauchy-Schwarz Inequality
E X Y ≤ E X 2 E Y 2 EXY \le \sqrt{EX^2EY^2} EXY≤EX2EY2
这说明二阶矩存在, E X Y EXY EXY也存在,并且满足该不等式。
证明:
f
(
t
)
=
E
(
t
X
+
Y
)
2
=
E
(
t
2
X
2
+
Y
2
+
2
t
X
Y
)
=
t
2
E
X
2
+
E
Y
2
+
2
t
E
X
Y
≥
0
,
∀
t
∈
R
f(t) = E(tX+Y)^2 = E(t^2X^2+Y^2+2tXY) = t^2EX^2+EY^2+2tEXY \ge 0,\forall t\in R
f(t)=E(tX+Y)2=E(t2X2+Y2+2tXY)=t2EX2+EY2+2tEXY≥0,∀t∈R
利用判别式小于等于0即可。注意
f
(
t
)
=
E
(
t
X
+
Y
)
2
≤
2
t
2
X
2
+
2
Y
2
<
∞
f(t)=E(tX+Y)^2\le 2t^2X^2+2Y^2<\infty
f(t)=E(tX+Y)2≤2t2X2+2Y2<∞,故
f
(
t
)
f(t)
f(t)始终存在。
同时,所有具有二阶矩的随机变量构成的向量空间可以成为一个内积空间,定义
<
X
,
Y
>
:
=
E
X
Y
,
∣
∣
X
∣
∣
=
E
X
2
,
d
(
X
,
Y
)
=
E
(
X
−
Y
)
2
<X,Y> := EXY,||X||=\sqrt{EX^2},d(X,Y) = \sqrt{E(X-Y)^2}
<X,Y>:=EXY,∣∣X∣∣=EX2,d(X,Y)=E(X−Y)2
协方差
协方差的引入,可以考虑两个随机变量的和的方差。
v
a
r
(
X
+
Y
)
=
E
(
(
X
+
Y
)
−
E
(
X
+
Y
)
)
2
=
E
(
X
−
E
X
+
Y
−
E
Y
)
2
=
v
a
r
(
X
)
+
v
a
r
(
Y
)
+
2
E
(
X
−
E
X
)
(
Y
−
E
Y
)
var(X+Y) = E((X+Y)-E(X+Y))^2 =E(X-EX+Y-EY)^2 = var(X)+var(Y)+2E(X-EX)(Y-EY)
var(X+Y)=E((X+Y)−E(X+Y))2=E(X−EX+Y−EY)2=var(X)+var(Y)+2E(X−EX)(Y−EY)
如果
X
,
Y
X,Y
X,Y两两独立,最后一项是没有的。所以
v
a
r
(
X
+
Y
)
=
v
a
r
(
X
)
+
v
a
r
(
Y
)
.
var(X+Y)= var(X)+var(Y).
var(X+Y)=var(X)+var(Y).
否则,我们可以定义
定义4.2.3 协方差 σ X , Y = c o v ( X , Y ) : = E ( X − E X ) ( Y − E Y ) . \sigma_{X,Y} = cov(X,Y) := E(X-EX)(Y-EY). σX,Y=cov(X,Y):=E(X−EX)(Y−EY).
假设的前提是二阶矩存在。
定义协方差,目的是考虑把两个以上的随机变量放在一起时,研究他们之间的关系。可以定义随机向量的数字特征:
E
X
→
=
(
E
X
1
,
⋯
,
E
X
n
)
Σ
=
(
σ
i
j
)
n
×
n
E\overrightarrow X = (EX_1,\cdots,EX_n)\\ \Sigma=(\sigma_{ij})_{n\times n}
EX=(EX1,⋯,EXn)Σ=(σij)n×n
协方差矩阵
Σ
\Sigma
Σ是一个半正定矩阵.
协方差是一个双线性函数:
c
o
v
(
a
X
+
b
,
c
Y
+
d
)
=
a
c
⋅
c
o
v
(
X
,
Y
)
c
o
v
(
∑
i
X
i
,
∑
j
Y
j
)
=
∑
i
∑
j
c
o
v
(
X
i
,
Y
j
)
c
o
v
(
X
,
X
)
=
v
a
r
(
X
)
c
o
v
(
X
,
Y
)
=
E
X
Y
−
(
E
X
)
(
E
Y
)
(
s
i
m
i
l
a
r
t
o
v
a
r
i
a
n
c
e
)
σ
X
,
Y
≤
σ
X
σ
Y
(
c
a
u
c
h
y
,
E
∣
(
X
−
E
X
)
(
Y
−
E
Y
)
∣
≤
E
(
X
−
E
X
)
2
E
(
Y
−
E
Y
)
2
)
cov(aX+b,cY+d) = ac\cdot cov(X,Y)\\ cov(\sum_i X_i,\sum_jY_j) = \sum_i\sum_j cov(X_i,Y_j)\\ cov(X,X) = var(X) cov(X,Y) = EXY - (EX)(EY)\\ (similar\ to\ variance)\\ \sigma_{X,Y} \le \sigma_X\sigma_Y\ \\ (cauchy,E|(X-EX)(Y-EY)|\le \sqrt{E(X-EX)^2E(Y-EY)^2})
cov(aX+b,cY+d)=ac⋅cov(X,Y)cov(i∑Xi,j∑Yj)=i∑j∑cov(Xi,Yj)cov(X,X)=var(X)cov(X,Y)=EXY−(EX)(EY)(similar to variance)σX,Y≤σXσY (cauchy,E∣(X−EX)(Y−EY)∣≤E(X−EX)2E(Y−EY)2)
相关系数
由
−
σ
X
σ
Y
≤
σ
X
,
Y
≤
σ
X
σ
Y
-\sigma_X\sigma_Y\le\sigma_{X,Y}\le\sigma_X\sigma_Y
−σXσY≤σX,Y≤σXσY,定义
ρ
=
ρ
X
,
Y
:
=
σ
X
,
Y
σ
X
σ
Y
=
c
o
v
(
X
,
Y
)
v
a
r
(
X
)
v
a
r
(
Y
)
\rho = \rho_{X,Y} := \dfrac{\sigma_{X,Y}}{\sigma_X\sigma_Y} = \dfrac{cov(X,Y)}{\sqrt{var(X)var(Y)}}
ρ=ρX,Y:=σXσYσX,Y=var(X)var(Y)cov(X,Y)
不相关、正相关、负相关为:
ρ
(
o
r
c
o
v
)
=
0
,
≥
0
,
≤
0
\rho(or\ cov) = 0,\ge0,\le0
ρ(or cov)=0,≥0,≤0.
完全正相关、负相关: ρ = 1 , ρ = − 1. \rho = 1,\rho = -1. ρ=1,ρ=−1.
思考题,假设 f : R → R f:\R\to \R f:R→R单调上升,有界。证明: X = f ( W ) , Y = g ( W ) X=f(W),Y=g(W) X=f(W),Y=g(W)正相关, ∀ W . \forall W. ∀W.
证明:
直观上来说,
X
X
X越大,
W
W
W的值越大,
Y
Y
Y的值越大,因此它们之间的确正相关。严格证明:假设
W
1
,
W
2
W_1,W_2
W1,W2是
W
W
W的两个独立复制,即
W
1
,
W
2
W_1,W_2
W1,W2i.i.d.)。则
(
f
(
W
1
)
−
f
(
W
2
)
)
(
g
(
W
1
)
−
g
(
W
2
)
)
≥
0.
(f(W_1)-f(W_2))(g(W_1)-g(W_2)) \ge 0.
(f(W1)−f(W2))(g(W1)−g(W2))≥0.
这是根据单调性得出的结论。展开得
f
(
W
1
)
g
(
W
1
)
+
f
(
W
2
)
g
(
W
2
)
≥
f
(
W
2
)
g
(
W
1
)
+
f
(
W
1
)
g
(
W
2
)
f(W_1)g(W_1)+f(W_2)g(W_2)\ge f(W_2)g(W_1)+f(W_1)g(W_2)
f(W1)g(W1)+f(W2)g(W2)≥f(W2)g(W1)+f(W1)g(W2)
左右取期望,
E
f
(
W
)
g
(
W
)
≥
E
f
(
W
)
E
g
(
W
)
Ef(W)g(W)\ge Ef(W)Eg(W)
Ef(W)g(W)≥Ef(W)Eg(W)
这里利用了独立性和同分布。
考虑随机变量的标准化:
ρ
X
∗
,
Y
∗
=
c
o
v
(
X
,
Y
)
v
a
r
(
X
)
v
a
r
(
Y
)
=
ρ
X
,
Y
.
\rho_{X^*,Y^*} = \dfrac{cov(X,Y)}{\sqrt{var(X)var(Y)}} = \rho_{X,Y}.
ρX∗,Y∗=var(X)var(Y)cov(X,Y)=ρX,Y.
在内积空间里,
ρ
X
,
Y
=
ρ
X
∗
,
Y
∗
=
c
o
v
(
X
∗
,
Y
∗
)
=
<
X
∗
,
Y
∗
>
=
c
o
s
θ
\rho_{X,Y} = \rho_{X^*,Y^*} = cov(X^*,Y^*) = <X^*,Y^*> = cos\theta
ρX,Y=ρX∗,Y∗=cov(X∗,Y∗)=<X∗,Y∗>=cosθ
因此
∣
ρ
∣
=
1
⟺
θ
=
0
o
r
π
⟺
X
∗
=
a
X
∗
|\rho| = 1 \iff \theta = 0\ or\ \pi \iff X^* = aX^*
∣ρ∣=1⟺θ=0 or π⟺X∗=aX∗
若
X
,
Y
X,Y
X,Y相互独立,则
c
o
v
(
X
,
Y
)
=
0
cov(X,Y) = 0
cov(X,Y)=0,不相关。反之不然,举例为
X
∼
N
(
0
,
1
)
,
Y
=
X
2
.
c
o
v
(
X
,
Y
)
=
E
X
3
−
E
X
E
X
2
=
0.
X\sim N(0,1),Y = X^2.cov(X,Y) = EX^3-EXEX^2=0.
X∼N(0,1),Y=X2.cov(X,Y)=EX3−EXEX2=0.
例子
1. 二元正态
参数 ρ \rho ρ就是 X , Y X,Y X,Y的相关系数。 X , Y X,Y X,Y不相关等价于相互独立。
注意,“不相关等价于相互独立”仅仅在于
X
,
Y
X,Y
X,Y合起来是一个二元正态才成立,而不是
X
,
Y
X,Y
X,Y自己是正态变量就成立。举例:
p
(
x
)
=
1
2
π
e
−
x
2
2
,
g
(
x
)
=
c
o
s
x
⋅
1
{
∣
x
∣
<
π
}
p
X
,
Y
(
x
,
y
)
=
p
(
x
)
p
(
y
)
+
1
2
π
e
−
π
2
g
(
x
)
g
(
y
)
p(x) = \frac{1}{\sqrt{2\pi}}e^{-\frac{x^2}2},g(x) = cosx\cdot 1_{\{|x|<\pi\}}\\ p_{X,Y}(x,y) = p(x)p(y) + \frac{1}{2\pi}e^{-\pi^2}g(x)g(y)
p(x)=2π1e−2x2,g(x)=cosx⋅1{∣x∣<π}pX,Y(x,y)=p(x)p(y)+2π1e−π2g(x)g(y)
这个例子满足:(1)
p
(
x
,
y
)
p(x,y)
p(x,y)是一个密度函数,因为它非负,且积分为1.(2)X,Y成为两个标准正态变量;(3)X,Y不相关;(4)X,Y臂独立;(5)X,Y合起来不是一个二元正态。
2. 事件的相关
利用示性函数去定义事件的协方差、相关系数、相关性。
c
o
v
(
1
A
,
1
B
)
=
E
1
A
B
−
E
1
A
E
1
B
=
P
(
A
B
)
−
P
(
A
)
P
(
B
)
v
a
r
(
1
A
)
=
P
(
A
)
−
P
(
A
)
2
ρ
A
,
B
=
P
(
A
B
)
−
P
(
A
)
P
(
B
)
P
(
A
)
P
(
A
c
)
P
(
B
)
P
(
B
c
)
cov(1_A,1_B) = E1_{AB} - E1_AE1_B = P(AB) - P(A)P(B)\\ var(1_A) = P(A)-P(A)^2\\ \rho_{A,B} = \dfrac{P(AB)-P(A)P(B)}{\sqrt{P(A)P(A^c)P(B)P(B^c)}}
cov(1A,1B)=E1AB−E1AE1B=P(AB)−P(A)P(B)var(1A)=P(A)−P(A)2ρA,B=P(A)P(Ac)P(B)P(Bc)P(AB)−P(A)P(B)
可见,
A
,
B
A,B
A,B不相关等价于相互独立。这个性质还可以出现在所有二值随机变量上,比如服从
X
=
a
,
c
;
Y
=
b
,
d
X=a,c;Y=b,d
X=a,c;Y=b,d的两点分布,可以记事件
A
=
{
X
=
a
}
,
B
=
{
Y
=
b
}
A=\{X=a\},B=\{Y=b\}
A={X=a},B={Y=b},这样
X
,
Y
X,Y
X,Y其实就是示性函数
1
A
,
1
B
1_A,1_B
1A,1B的线性变换。如果
X
,
Y
X,Y
X,Y不相关,则线性变换的结果
1
A
,
1
B
1_A,1_B
1A,1B也不相关,于是
1
A
,
1
B
1_A,1_B
1A,1B独立,则
P
(
X
=
a
,
Y
=
b
)
=
P
(
X
=
a
)
P
(
Y
=
b
)
P(X=a,Y=b)=P(X=a)P(Y=b)
P(X=a,Y=b)=P(X=a)P(Y=b),则可推出
X
,
Y
X,Y
X,Y独立。另外,这个性质对于三值随机变量就不成立了。反例是
X,Y | -1 | 0 | 1 | |
---|---|---|---|---|
0 | 1 3 \frac13 31 | 0 | 1 3 \frac13 31 | 2 3 \frac23 32 |
1 | 0 | 1 3 \frac13 31 | 0 | 1 3 \frac13 31 |
1 3 \frac13 31 | 1 3 \frac13 31 | 1 3 \frac13 31 |
正相关也可以理解为条件概率大于原本的概率: P ( A ∣ B ) ≥ P ( A ) . P(A|B)\ge P(A). P(A∣B)≥P(A).考虑抽球模型, A = { 第一次抽到红球 } , B = { 第二次抽到红球 } A=\{\textbf{第一次抽到红球}\},B=\{\textbf{第二次抽到红球}\} A={第一次抽到红球},B={第二次抽到红球},如果是放回抽样,则 A , B A,B A,B可以看做两个独立重复试验,不相关,相互独立。如果是不放回抽样, A , B A,B A,B各自的概率是相等的,因为抽签概率与顺序无关。但是 P ( B ∣ A ) < P ( A ) P(B|A)<P(A) P(B∣A)<P(A),因此 A , B A,B A,B负相关,从而不独立。
还可以从 ∣ ρ ∣ ≤ 1 |\rho|\le 1 ∣ρ∣≤1推出 ∣ P ( A B ) − P ( A ) P ( B ) ∣ ≤ 1 4 . |P(AB) - P(A)P(B)|\le\frac14. ∣P(AB)−P(A)P(B)∣≤41.
最优预测2
问题:有两个随机变量
X
,
Y
X,Y
X,Y,满足
E
X
=
0
,
E
X
2
=
1
EX=0,EX^2=1
EX=0,EX2=1,希望能用
X
X
X的线性函数去预测
Y
Y
Y,即
Q
(
a
,
b
)
=
E
(
Y
−
(
a
X
+
b
)
)
2
Q(a,b) = E(Y-(aX+b))^2
Q(a,b)=E(Y−(aX+b))2
这个均方误差达到最小。
解决方案:取 a = c o v ( X , Y ) , b = E Y a=cov(X,Y),b=EY a=cov(X,Y),b=EY。
证明:
首先令
W
=
Y
−
a
X
W = Y-aX
W=Y−aX为一个新的随机变量,则
Q
(
a
,
b
)
=
E
(
W
−
b
)
2
Q(a,b) = E(W-b)^2
Q(a,b)=E(W−b)2
此时的目标是去优化
Q
(
a
,
b
)
Q(a,b)
Q(a,b),由最优预测1可知,
b
=
E
W
=
E
Y
b=EW=EY
b=EW=EY时可以实现目标。于是得到
b
b
b值。令
V
=
Y
−
E
Y
V=Y-EY
V=Y−EY,设
a
0
a_0
a0使得
Q
(
a
)
Q(a)
Q(a)达到最小值。下面优化
Q
(
a
)
Q(a)
Q(a):
Q
(
a
)
=
E
(
Y
−
a
X
−
E
Y
)
2
=
E
(
V
−
a
X
)
2
=
E
(
V
−
a
0
X
+
a
0
X
)
2
=
Q
(
a
0
)
+
a
0
2
E
X
2
+
2
a
0
E
X
(
V
−
a
0
X
)
Q(a) = E(Y-aX-EY)^2 = E(V-aX)^2 = E(V-a_0X+a_0X)^2=Q(a_0)+a_0^2EX^2+2a_0EX(V-a_0X)
Q(a)=E(Y−aX−EY)2=E(V−aX)2=E(V−a0X+a0X)2=Q(a0)+a02EX2+2a0EX(V−a0X)
于是由二次函数的性质,
E
X
(
V
−
a
0
X
)
=
0
⇒
a
0
=
E
X
V
=
E
X
Y
=
c
o
v
(
X
,
Y
)
EX(V-a_0X) = 0\Rightarrow a_0 = EXV = EXY = cov(X,Y)
EX(V−a0X)=0⇒a0=EXV=EXY=cov(X,Y)
Q ( a ) = Q ( a 0 ) + a 0 2 Q ( a 0 ) = Q ( 0 ) − a 0 2 = v a r ( Y ) − c o v ( X , Y ) 2 = ( 1 − ρ 2 ) v a r ( Y ) ∣ ρ ∣ = 1 ⟺ Y = a 0 + b 0 X Q(a) = Q(a_0) + a_0^2 \\ Q(a_0) = Q(0) - a_0^2 = var(Y) - cov(X,Y)^2 = (1-\rho^2)var(Y)\\ |\rho| = 1 \iff Y = a_0 + b_0 X Q(a)=Q(a0)+a02Q(a0)=Q(0)−a02=var(Y)−cov(X,Y)2=(1−ρ2)var(Y)∣ρ∣=1⟺Y=a0+b0X
最优预测3
如果用任意一个函数去预测
Y
Y
Y,即最小化
Q
(
φ
)
=
E
(
Y
−
φ
(
X
)
)
2
Q(\varphi) = E(Y-\varphi(X))^2
Q(φ)=E(Y−φ(X))2
结论:
φ
(
x
)
=
E
(
Y
∣
X
=
x
)
\varphi(x) = E(Y|X=x)
φ(x)=E(Y∣X=x).
证明:
Q
(
φ
)
=
E
(
Y
−
ϕ
(
X
)
+
ϕ
(
X
)
−
φ
(
X
)
)
2
=
Q
(
ϕ
)
+
E
(
ϕ
(
X
)
−
φ
(
X
)
)
2
+
2
E
(
ϕ
(
X
)
−
φ
(
X
)
)
(
Y
−
ϕ
(
X
)
)
Q(\varphi) = E(Y-\phi(X)+\phi(X)-\varphi(X))^2 = Q(\phi) + E(\phi(X)-\varphi(X))^2 +2E(\phi(X)-\varphi(X))(Y-\phi(X))
Q(φ)=E(Y−ϕ(X)+ϕ(X)−φ(X))2=Q(ϕ)+E(ϕ(X)−φ(X))2+2E(ϕ(X)−φ(X))(Y−ϕ(X))
考虑
L
e
t
W
=
ϕ
(
X
)
−
φ
(
X
)
,
Y
^
=
W
(
Y
−
ϕ
(
X
)
)
E
(
Y
^
∣
X
=
x
)
=
E
(
w
(
Y
−
ϕ
(
x
)
)
∣
X
=
x
)
=
w
E
(
Y
∣
X
=
x
)
−
w
ϕ
(
x
)
=
0
Let\ W = \phi(X)-\varphi(X),\ \hat Y = W(Y-\phi(X))\\ E(\hat Y|X=x) = E(w(Y-\phi(x))|X=x) = wE(Y|X=x)-w\phi(x) = 0
Let W=ϕ(X)−φ(X), Y^=W(Y−ϕ(X))E(Y^∣X=x)=E(w(Y−ϕ(x))∣X=x)=wE(Y∣X=x)−wϕ(x)=0
故
E
(
Y
^
∣
X
)
=
0
E(\hat Y|X) = 0
E(Y^∣X)=0.
E
Y
^
=
E
(
E
(
Y
^
∣
X
)
)
=
0
E\hat Y = E(E(\hat Y|X)) = 0
EY^=E(E(Y^∣X))=0
因而
ϕ
\phi
ϕ是最小值点。
条件期望
最优预测的命题:
E
[
(
Y
−
g
(
X
)
)
2
]
≥
E
[
(
Y
−
E
[
Y
∣
X
]
)
2
]
E[(Y-g(X))^2]\ge E[(Y-E[Y|X])^2]
E[(Y−g(X))2]≥E[(Y−E[Y∣X])2]
还有一种很直觉的判断方式。当拿常数预测Y的时候,预测Y的均值最合理。这时候如果观察到了X的值,那依然预测Y的均值,不过这时候是在条件X=x的情况下。
重期望公式:
E
[
E
[
Y
∣
X
]
]
=
E
Y
E[E[Y|X]] = EY
E[E[Y∣X]]=EY
只需要在离散情形和连续情形会证明和使用即可。
例子:求几何分布的方差。设
X
X
X是一个服从参数
p
p
p的几何分布随机变量,随机变量
Y
Y
Y表示在第一轮实验中成功的示性函数。即
Y
∼
B
(
1
,
p
)
Y\sim B(1,p)
Y∼B(1,p)。那么
E
[
X
2
]
=
E
E
[
X
2
∣
Y
]
=
E
[
X
2
∣
Y
=
1
]
p
+
E
[
X
2
∣
Y
=
0
]
(
1
−
p
)
=
p
+
E
[
(
1
+
X
)
2
]
(
1
−
p
)
E[X^2] = EE[X^2|Y] = E[X^2|Y=1]p + E[X^2|Y=0](1-p) = p + E[(1+X)^2](1-p)
E[X2]=EE[X2∣Y]=E[X2∣Y=1]p+E[X2∣Y=0](1−p)=p+E[(1+X)2](1−p)
因此
E
X
2
=
2
p
2
−
1
p
,
v
a
r
(
X
)
=
1
p
2
−
1
p
EX^2 = \frac2{p^2}-\frac1p, var(X) = \frac1{p^2}-\frac1p
EX2=p22−p1,var(X)=p21−p1
母函数
定义
设 X X X取非负整数,分布列为 p i , i = 0 , 1 , 2 , ⋯ p_i,i=0,1,2,\cdots pi,i=0,1,2,⋯,定义 g ( s ) = ∑ i = 0 ∞ p i s i = p 0 + p 1 s + p 2 s 2 + ⋯ g(s) = \sum_{i=0}^\infty p_is^i = p_0+p_1s+p_2s^2+\cdots g(s)=∑i=0∞pisi=p0+p1s+p2s2+⋯为随机变量 X X X的母函数,记为 g X ( s ) g_X(s) gX(s)或 g ( s ) g(s) g(s).如果我们规定 s s s取 [ − 1 , 1 ] [-1,1] [−1,1]间的数,则 g ( s ) g(s) g(s)收敛,期望存在,可以认为 g ( s ) = E s X g(s) = Es^X g(s)=EsX.
注意,母函数中只涉及分布列,因此确定了分布列,母函数就被确定了。同样的,确定了母函数,由
g
(
k
)
(
0
)
=
p
k
k
!
g^{(k)}(0) = p_kk!
g(k)(0)=pkk!
可以确定分布列,因此母函数和分布列是唯一互相决定的。
举例:几何分布的母函数
g
(
s
)
=
∑
k
=
1
∞
q
k
−
1
p
s
k
=
p
s
1
−
q
s
g(s) = \sum_{k=1}^\infty q^{k-1}ps^k = \frac{ps}{1-qs}
g(s)=k=1∑∞qk−1psk=1−qsps
性质
对母函数求导:
g
′
(
s
)
=
p
1
+
2
p
2
s
+
3
p
3
s
2
+
⋯
=
E
X
s
X
−
1
g
′
′
(
s
)
=
2
p
2
+
6
p
3
s
+
⋯
=
E
X
(
X
−
1
)
s
X
−
2
g
(
l
)
(
s
)
=
E
X
(
X
−
1
)
⋯
(
X
−
l
+
1
)
s
X
−
l
g
(
1
)
=
∑
i
p
i
=
1
g
′
(
1
)
=
E
X
g
′
′
(
1
)
=
E
X
(
X
−
1
)
=
E
X
2
−
g
′
(
1
)
g'(s) = p_1+2p_2s+3p_3s^2+\cdots=EXs^{X-1}\\ g''(s) = 2p_2+6p_3s+\cdots = EX(X-1)s^{X-2}\\ g^{(l)}(s) = EX(X-1)\cdots(X-l+1)s^{X-l}\\ g(1) =\sum_ip_i=1\\ g'(1) = EX\\ g''(1) = EX(X-1) =EX^2-g'(1)
g′(s)=p1+2p2s+3p3s2+⋯=EXsX−1g′′(s)=2p2+6p3s+⋯=EX(X−1)sX−2g(l)(s)=EX(X−1)⋯(X−l+1)sX−lg(1)=i∑pi=1g′(1)=EXg′′(1)=EX(X−1)=EX2−g′(1)
乘积
若
X
X
X与
Y
Y
Y独立,则
g
X
+
Y
(
s
)
=
g
X
(
s
)
g
Y
(
s
)
g_{X+Y}(s) = g_X(s)g_Y(s)
gX+Y(s)=gX(s)gY(s)
这是因为
g
X
+
Y
(
s
)
=
E
s
X
+
Y
=
E
s
X
s
Y
=
E
s
X
E
s
Y
=
g
X
(
s
)
g
Y
(
s
)
g_{X+Y}(s) = Es^{X+Y} = Es^Xs^{Y} = Es^XEs^Y = g_X(s)g_Y(s)
gX+Y(s)=EsX+Y=EsXsY=EsXEsY=gX(s)gY(s)
举例:二项分布
二项分布可以看做是
n
n
n个
i
i
d
iid
iid的伯努利分布的和,而每个伯努利分布的母函数为
q
+
p
s
q+ps
q+ps,故二项分布的母函数
g
(
s
)
=
(
q
+
p
s
)
n
g(s) = (q+ps)^n
g(s)=(q+ps)n
利用母函数法,还可以看到泊松逼近的一个证明方式,由
lim
n
→
∞
g
(
s
)
=
lim
n
→
∞
(
1
+
p
(
s
−
1
)
)
n
=
e
p
(
s
−
1
)
\lim_{n\to\infty} g(s) = \lim_{n\to\infty} (1+p(s-1))^n =e^{p(s-1)}
n→∞limg(s)=n→∞lim(1+p(s−1))n=ep(s−1)
这是一个参数为
p
p
p的泊松变量的母函数。
举例:帕斯卡分布
帕斯卡分布可以看做是r个iid的几何分布的和,而每个几何分布的母函数为
p
s
1
−
q
s
\dfrac{ps}{1-qs}
1−qsps,则帕斯卡分布的母函数
g
(
s
)
=
(
p
s
1
−
q
s
)
r
g(s) = (\frac{ps}{1-qs})^r
g(s)=(1−qsps)r
复合
设
ξ
=
ξ
1
,
ξ
2
,
⋅
,
i
.
i
.
d
.
\xi = \xi_1,\xi_2,\cdot,i.i.d.
ξ=ξ1,ξ2,⋅,i.i.d.,且它们与
W
W
W独立。令
Y
=
ξ
1
+
⋯
+
ξ
W
Y = \xi_1+\cdots+\xi_W
Y=ξ1+⋯+ξW,则
g
Y
(
s
)
=
g
W
(
g
ξ
(
s
)
)
g_Y(s) = g_W(g_\xi(s))
gY(s)=gW(gξ(s))
证明:
E
(
s
Y
∣
W
=
k
)
=
E
(
s
ξ
1
+
⋯
+
ξ
k
∣
W
=
k
)
=
E
(
s
ξ
1
+
⋯
+
ξ
k
)
=
g
ξ
(
s
)
k
g
Y
(
s
)
=
E
(
s
Y
)
=
∑
k
g
ξ
(
s
)
k
p
k
=
g
W
(
g
ξ
(
s
)
)
E(s^Y|W=k) = E(s^{\xi_1+\cdots+\xi_k}|W=k) = E(s^{\xi_1+\cdots+\xi_k})=g_\xi(s)^k\\ g_Y(s)=E(s^Y) = \sum_kg_\xi(s)^kp_k = g_W(g_\xi(s))
E(sY∣W=k)=E(sξ1+⋯+ξk∣W=k)=E(sξ1+⋯+ξk)=gξ(s)kgY(s)=E(sY)=k∑gξ(s)kpk=gW(gξ(s))
其他性质:
E
Y
=
g
Y
′
(
1
)
=
g
ξ
′
(
1
)
g
W
′
(
g
ξ
(
1
)
)
=
E
ξ
E
W
EY = g_Y'(1) = g'_\xi(1)g'_W(g_\xi(1)) = E\xi EW
EY=gY′(1)=gξ′(1)gW′(gξ(1))=EξEW
直观上也可以接受,因为
Y
Y
Y就是
W
W
W个
ξ
\xi
ξ的和。
复合Possion分布
设 N ∼ P ( λ ) N\sim P(\lambda) N∼P(λ), ξ 1 , ξ 2 , ⋯ \xi_1,\xi_2,\cdots ξ1,ξ2,⋯是一列 i . i . d i.i.d i.i.d的随机变量,则 Y = ξ 1 + ξ 2 + ⋯ + ξ N Y = \xi_1+\xi_2+\cdots+\xi_N Y=ξ1+ξ2+⋯+ξN是一个复合泊松变量。
首先计算泊松分布的母函数:
g
(
s
)
=
e
−
λ
(
1
+
λ
1
s
+
λ
2
2
!
s
2
+
⋯
)
=
e
−
λ
e
λ
s
=
e
λ
(
s
−
1
)
g(s) = e^{-\lambda}(1+\dfrac{\lambda}{1}s+\dfrac{\lambda^2}{2!}s^2+\cdots) = e^{-\lambda}e^{\lambda s} = e^{\lambda(s-1)}
g(s)=e−λ(1+1λs+2!λ2s2+⋯)=e−λeλs=eλ(s−1)
因此
g
Y
(
s
)
=
e
λ
(
g
ξ
(
s
)
−
1
)
g_Y(s) = e^{\lambda(g_\xi(s)-1)}
gY(s)=eλ(gξ(s)−1)
如果
ξ
\xi
ξ服从
B
e
r
n
o
u
l
l
i
Bernoulli
Bernoulli分布,
g
ξ
(
s
)
=
q
+
p
s
g_\xi(s) = q+ps
gξ(s)=q+ps,则
g
Y
(
s
)
=
e
λ
(
q
+
p
s
−
1
)
=
e
λ
p
(
s
−
1
)
g_Y(s) = e^{\lambda(q+ps-1)} =e^{\lambda p(s-1)}
gY(s)=eλ(q+ps−1)=eλp(s−1)
因此
Y
Y
Y还是一个泊松分布,参数为
λ
p
\lambda p
λp,意思是说,如果一只虫产卵数服从泊松分布,其中每个卵都独立地以概率
p
p
p孵化为幼虫,则一只虫产生的幼虫数还服从(复合)泊松分布。
凸组合
设
X
,
Y
,
ξ
X,Y,\xi
X,Y,ξ为相互独立的随机变量,
P
(
ξ
=
1
)
=
1
−
P
(
ξ
=
0
)
=
p
P(\xi=1) = 1-P(\xi=0) = p
P(ξ=1)=1−P(ξ=0)=p,即
ξ
∼
B
(
1
,
p
)
\xi\sim B(1,p)
ξ∼B(1,p).令
W
=
X
⋅
1
{
ξ
=
1
}
+
Y
⋅
1
{
ξ
=
0
}
W = X\cdot1_{\{\xi=1\}}+Y\cdot 1_{\{\xi=0\}}
W=X⋅1{ξ=1}+Y⋅1{ξ=0}
结论是
g
W
=
p
g
X
+
(
1
−
p
)
g
Y
g_W = pg_X+(1-p)g_Y
gW=pgX+(1−p)gY
证明:
g
W
=
E
(
s
W
)
=
E
(
s
W
∣
ξ
=
1
)
p
+
E
(
s
W
∣
ξ
=
0
)
q
=
E
(
s
X
∣
ξ
=
1
)
p
+
E
(
s
Y
∣
ξ
=
0
)
q
=
p
g
X
+
(
1
−
p
)
g
Y
g_W=E(s^W) = E(s^W|\xi=1)p+E(s^W|\xi=0)q = E(s^X|\xi=1)p+E(s^Y|\xi=0)q = pg_X+(1-p)g_Y
gW=E(sW)=E(sW∣ξ=1)p+E(sW∣ξ=0)q=E(sX∣ξ=1)p+E(sY∣ξ=0)q=pgX+(1−p)gY
特征函数
定义与基本性质
称 E e i t x = E c o s ( t X ) + − 1 s i n ( t X ) , ∀ t ∈ R Ee^{itx}=Ecos(tX)+\sqrt{-1}sin(tX),\forall t\in \R Eeitx=Ecos(tX)+−1sin(tX),∀t∈R为 X X X的特征函数,记为 f X ( t ) f_X(t) fX(t)。
基本性质三条:
- f ( 0 ) = 1 f(0) = 1 f(0)=1;
- f ( t ) f(t) f(t)是一致连续的。
- f ( t ) f(t) f(t)是半正定的。即 ∀ t 1 , ⋯ , t n ∈ R \forall t_1,\cdots,t_n\in R ∀t1,⋯,tn∈R,令 a i j = f ( t i − t j ) a_{ij} = f(t_i-t_j) aij=f(ti−tj),则 A = ( a i j ) n × n A=(a_{ij})_{n\times n} A=(aij)n×n是半正定矩阵。
B o c h n e r − K h i n c h i n e Bochner-Khinchine Bochner−Khinchine定理:如果KaTeX parse error: Undefined control sequence: \C at position 8: f:\R\to\̲C̲满足上述三条,则 f f f是某个随机变量的特征函数。
逆转公式&唯一性
逆转公式:设分布函数
F
(
x
)
F(x)
F(x)的特征函数为
f
(
t
)
f(t)
f(t),又
x
1
,
x
2
x_1,x_2
x1,x2是
F
(
x
)
F(x)
F(x)的连续点,则
F
(
x
2
)
−
F
(
x
1
)
=
lim
T
→
∞
1
2
π
∫
−
T
T
e
−
i
t
x
1
−
e
−
i
t
x
2
i
t
f
(
t
)
d
t
F(x_2)-F(x_1) = \lim_{T\to\infty}\frac{1}{2\pi}\int_{-T}^T\dfrac{e^{-itx_1}-e^{-itx_2}}{it}f(t)dt
F(x2)−F(x1)=T→∞lim2π1∫−TTite−itx1−e−itx2f(t)dt
唯一性定理:分布函数由其特征函数唯一决定。
F
(
x
)
=
lim
y
→
−
∞
lim
T
→
∞
1
2
π
∫
−
T
T
e
−
i
t
y
−
e
−
i
t
x
i
t
f
(
t
)
d
t
F(x) = \lim_{y\to-\infty}\lim_{T\to\infty}\frac{1}{2\pi}\int_{-T}^T\dfrac{e^{-ity}-e^{-itx}}{it}f(t)dt
F(x)=y→−∞limT→∞lim2π1∫−TTite−ity−e−itxf(t)dt
当
f
(
t
)
f(t)
f(t)是绝对可积函数时,
p
(
x
)
=
1
2
π
∫
−
∞
∞
e
−
i
t
x
f
(
t
)
d
t
p(x) = \frac{1}{2\pi}\int_{-\infty}^\infty e^{-itx}f(t)dt
p(x)=2π1∫−∞∞e−itxf(t)dt
因此在
f
(
t
)
f(t)
f(t)绝对可积的条件下,分布密度
p
(
x
)
p(x)
p(x)是
f
(
t
)
f(t)
f(t)的傅里叶逆变换。相同的,根据特征函数的定义,
f
(
t
)
=
∫
−
∞
∞
e
i
t
x
p
(
x
)
d
x
f(t) = \int_{-\infty}^\infty e^{itx}p(x)dx
f(t)=∫−∞∞eitxp(x)dx
其他性质
如果
k
k
k阶矩存在,则
f
(
0
)
=
1
,
f
′
(
0
)
=
i
E
X
,
f
′
′
(
0
)
=
i
2
E
X
2
,
⋯
,
f
(
k
)
(
0
)
=
i
k
E
X
k
f(0) = 1,f'(0) = iEX,f''(0) = i^2EX^2,\cdots,f^{(k)}(0) = i^kEX^k
f(0)=1,f′(0)=iEX,f′′(0)=i2EX2,⋯,f(k)(0)=ikEXk
且有
T
a
y
l
o
r
Taylor
Taylor展开:
f
(
t
)
=
1
+
f
′
(
0
)
t
+
f
′
′
(
0
)
2
!
t
2
+
⋯
+
f
(
k
)
(
0
)
k
!
t
k
+
o
(
t
k
)
.
f(t) = 1+f'(0)t + \frac{f''(0)}{2!}t^2+\cdots+\frac{f^{(k)}(0)}{k!}t^k+o(t^k).
f(t)=1+f′(0)t+2!f′′(0)t2+⋯+k!f(k)(0)tk+o(tk).
线性变换:
f
a
X
+
b
(
t
)
=
E
e
a
i
t
X
+
i
b
t
=
e
i
b
t
E
e
i
a
t
X
=
e
i
b
t
f
X
(
a
t
)
f_{aX+b}(t) = Ee^{aitX+ibt} = e^{ibt}Ee^{iatX} = e^{ibt}f_X(at)
faX+b(t)=EeaitX+ibt=eibtEeiatX=eibtfX(at)
标准正态的特征函数:
f
(
t
)
=
∫
e
i
t
x
p
(
x
)
d
x
=
1
2
π
∫
e
i
t
x
e
−
x
2
2
d
x
=
1
2
π
∫
e
−
x
2
2
c
o
s
(
t
x
)
d
x
f(t) = \int e^{itx}p(x)dx = \frac{1}{\sqrt{2\pi}}\int e^{itx}e^{-\frac {x^2}2}dx = \frac{1}{\sqrt{2\pi}}\int e^{-\frac {x^2}2}cos(tx)dx
f(t)=∫eitxp(x)dx=2π1∫eitxe−2x2dx=2π1∫e−2x2cos(tx)dx
这边利用了欧拉公式和奇函数的全积分为0.
由于正态分布的一阶矩存在,因此对特征函数求导是有意义的,对它求导:
f
′
(
t
)
=
1
2
π
∫
(
−
x
)
s
i
n
(
t
x
)
e
−
x
2
2
d
x
=
1
2
π
∫
s
i
n
(
t
x
)
d
e
−
x
2
2
=
−
1
2
π
∫
t
c
o
s
t
e
−
x
2
2
d
x
=
−
t
f
(
t
)
f'(t) = \frac{1}{\sqrt{2\pi}}\int(-x)sin(tx)e^{-\frac{x^2}2}dx = \frac{1}{\sqrt{2\pi}}\int sin(tx)de^{-\frac{x^2}{2}} = -\frac{1}{\sqrt{2\pi}}\int tcos\ te^{-\frac{x^2}{2}}dx = -tf(t)
f′(t)=2π1∫(−x)sin(tx)e−2x2dx=2π1∫sin(tx)de−2x2=−2π1∫tcos te−2x2dx=−tf(t)
因此解微分方程得
f
(
t
)
=
e
−
t
2
2
f(t) = e^{-\frac{t^2}2}
f(t)=e−2t2
因而
X
∼
N
(
μ
,
σ
2
)
X\sim N(\mu,\sigma^2)
X∼N(μ,σ2)的特征函数
f
X
(
t
)
=
e
i
μ
t
f
Z
(
σ
t
)
=
e
i
μ
t
−
1
2
σ
2
t
2
.
f_X(t) = e^{i\mu t} f_Z(\sigma t) = e^{i\mu t - \frac12\sigma^2t^2}.
fX(t)=eiμtfZ(σt)=eiμt−21σ2t2.
乘积:如果
X
,
Y
X,Y
X,Y独立,则
f
X
+
Y
=
E
e
i
(
X
+
Y
)
t
=
E
e
i
X
t
e
i
Y
t
=
f
X
f
Y
f_{X+Y} = Ee^{i(X+Y)t} = Ee^{iXt}e^{iYt} = f_Xf_Y
fX+Y=Eei(X+Y)t=EeiXteiYt=fXfY
同样地有:bernoulli分布的特征函数
f
(
t
)
=
q
+
p
e
i
t
f(t) = q+pe^{it}
f(t)=q+peit,二项分布的为
(
q
+
p
e
i
t
)
n
(q+pe^{it})^n
(q+peit)n。
n
→
∞
n\to\infty
n→∞时,这个函数逼近泊松分布的特征函数
e
λ
(
e
i
t
−
1
)
e^{\lambda(e^it-1)}
eλ(eit−1)
特征函数的凸组合还是特征函数:设 W = X ξ + Y ( 1 − ξ ) W=X\xi+Y(1-\xi) W=Xξ+Y(1−ξ),则 f W = p f X + ( 1 − p ) f Y f_W=pf_X+(1-p)f_Y fW=pfX+(1−p)fY.
证明:
E
e
i
t
W
=
E
[
e
i
t
W
∣
ξ
=
1
]
p
+
q
E
[
e
i
t
W
∣
ξ
=
0
]
=
p
f
X
+
(
1
−
p
)
f
Y
.
Ee^{itW} = E[e^{itW}|\xi=1]p+qE[e^{itW}|\xi=0] = pf_X+(1-p)f_Y.
EeitW=E[eitW∣ξ=1]p+qE[eitW∣ξ=0]=pfX+(1−p)fY.
联合特征函数
f X → ( t → ) = E e i t → ⋅ X → = E e i ( t 1 X 1 + t 2 X 2 + ⋯ + t n X n ) . f_{\overrightarrow X}(\overrightarrow t) = Ee^{i\overrightarrow t\cdot\overrightarrow X} = Ee^{i(t_1X_1+t_2X_2+\cdots+t_nX_n)}. fX(t)=Eeit⋅X=Eei(t1X1+t2X2+⋯+tnXn).
同样有逆转公式、唯一性定理等等。
边缘特征函数:
f
X
(
t
)
=
f
X
,
Y
(
t
,
0
)
f_X(t) = f_{X,Y}(t,0)
fX(t)=fX,Y(t,0)
只要把除了边缘的分量取为0就行。
注意区分:
当
X
X
X与
Y
Y
Y独立时,有
f
X
,
Y
(
t
,
s
)
=
f
X
(
t
)
f
Y
(
s
)
.
⋯
⋯
(
1
)
f
X
+
Y
(
t
)
=
f
X
(
t
)
f
Y
(
t
)
.
⋯
⋯
(
2
)
f_{X,Y}(t,s) = f_X(t)f_Y(s).\cdots\cdots(1)\\ f_{X+Y}(t) = f_X(t)f_Y(t).\cdots\cdots(2)
fX,Y(t,s)=fX(t)fY(s).⋯⋯(1)fX+Y(t)=fX(t)fY(t).⋯⋯(2)
但是第一条可以推出
X
,
Y
X,Y
X,Y独立,第二条不行。注意自变量是否共用
t
t
t。
多元正态分布
定义
X → = ( X 1 , ⋯ , X n ) T ∼ N ( μ → , Σ ) p ( x → ) = 1 2 π n ∣ Σ ∣ e x p { − 1 2 ( x → − μ → ) T Σ − 1 ( x → − μ → ) } \overrightarrow X = (X_1,\cdots,X_n)^T \sim N(\overrightarrow\mu,\Sigma)\\ p(\overrightarrow x) = \frac{1}{\sqrt{2\pi}^n\sqrt{|\Sigma|}}exp\{-\frac12(\overrightarrow x-\overrightarrow\mu)^T\Sigma^{-1}(\overrightarrow x -\overrightarrow \mu)\} X=(X1,⋯,Xn)T∼N(μ,Σ)p(x)=2πn∣Σ∣1exp{−21(x−μ)TΣ−1(x−μ)}
可以验证, μ , Σ \mu,\Sigma μ,Σ分别是期望和协方差矩阵。 Σ \Sigma Σ是一个正定矩阵。
标准正态:
Z
→
=
(
Z
1
,
⋯
,
Z
n
)
T
∼
N
(
0
,
I
n
)
\overrightarrow Z = (Z_1,\cdots,Z_n)^T\sim N(0,I_n)\\
Z=(Z1,⋯,Zn)T∼N(0,In)
此时可以验证
p
Z
→
(
z
→
)
=
p
Z
(
z
1
)
p
Z
(
z
2
)
⋯
p
Z
(
z
n
)
p_{\overrightarrow Z}(\overrightarrow z) = p_Z(z_1)p_Z(z_2)\cdots p_Z(z_n)
pZ(z)=pZ(z1)pZ(z2)⋯pZ(zn),因此
Z
1
,
Z
2
,
⋯
,
Z
n
i
.
i
.
d
.
∼
N
(
0
,
1
)
Z_1,Z_2,\cdots,Z_n\ i.i.d. \ \sim N(0,1)
Z1,Z2,⋯,Zn i.i.d. ∼N(0,1)
重要性质
非退化线性变换:
Y
=
ν
+
B
X
,
X
∼
N
(
μ
,
Σ
)
,
Y
∼
N
(
B
μ
+
ν
,
B
Σ
B
T
)
Y = \nu + BX, X\sim N(\mu,\Sigma),Y\sim N(B\mu+\nu,B\Sigma B^{T})
Y=ν+BX,X∼N(μ,Σ),Y∼N(Bμ+ν,BΣBT)
对于正态向量,
Σ
\Sigma
Σ是一个正定矩阵,因此存在
A
A
A满秩,
A
A
T
=
Σ
.
AA^T = \Sigma.
AAT=Σ.令
Z
=
A
−
1
(
X
−
μ
)
Z = A^{-1}(X-\mu)
Z=A−1(X−μ)
则
Z
Z
Z是一个标准正态向量。这个
A
A
A也可以直接取为
Σ
=
U
T
D
U
\sqrt\Sigma = U^T\sqrt{D}U
Σ=UTDU.
因此任何一个一般的正态向量,都可以化为标准正态,标准正态也可以通过适当的变换获得任意的正态向量。
标准正态的特征函数:
f
Z
(
t
)
=
e
−
1
2
t
2
f
Z
→
(
t
→
)
=
e
−
1
2
(
t
1
2
+
⋯
+
t
n
2
)
=
e
−
1
2
∣
∣
t
∣
∣
2
f_Z(t) = e^{-\frac12 t^2}\\ f_{\overrightarrow Z} (\overrightarrow t) = e^{-\frac{1}2(t_1^2+\cdots+t_n^2)}=e^{-\frac12||t||^2}
fZ(t)=e−21t2fZ(t)=e−21(t12+⋯+tn2)=e−21∣∣t∣∣2
而一般正态向量的特征函数:
f
X
(
t
)
=
e
x
p
{
i
μ
t
−
1
2
σ
2
t
2
}
f
X
→
(
t
→
)
=
e
x
p
{
i
μ
⋅
t
→
−
1
2
t
→
T
Σ
t
→
}
f_X(t) = exp\{i\mu t - \frac12\sigma^2t^2\} \\f_{\overrightarrow X}(\overrightarrow t) = exp\{i\mu\cdot\overrightarrow t-\frac12\overrightarrow t^T\Sigma\overrightarrow t\}
fX(t)=exp{iμt−21σ2t2}fX(t)=exp{iμ⋅t−21tTΣt}
如果
Σ
\Sigma
Σ半正定,称
f
(
t
→
)
f(\overrightarrow t)
f(t)对应的分布称为高斯分布
N
(
μ
→
,
Σ
)
N(\overrightarrow\mu,\Sigma)
N(μ,Σ).
同样地,高斯向量的任意线性变换仍然是高斯向量(无法用密度刻画,用特征函数),依然存在
X
→
=
d
μ
→
+
A
Z
→
,
A
n
×
m
:
A
A
T
=
Σ
\overrightarrow X \overset{d}= \overrightarrow \mu + A\overrightarrow Z, A_{n\times m}:AA^T = \Sigma
X=dμ+AZ,An×m:AAT=Σ
即使
Σ
\sqrt\Sigma
Σ退化,依然存在
A
A
A使得
X
→
=
μ
+
A
Z
\overrightarrow X = \mu + AZ
X=μ+AZ。
边缘分布:
X
→
=
(
Y
1
,
⋯
,
Y
r
;
W
r
+
1
,
⋯
,
W
n
)
T
,
μ
=
(
ν
1
,
⋯
,
ν
r
;
w
r
+
1
,
⋯
,
w
n
)
T
,
f
Y
(
s
)
=
f
X
(
s
,
0
)
=
e
x
p
{
i
ν
→
⋅
s
→
−
1
2
s
T
Σ
11
s
}
.
\overrightarrow X = (Y_1,\cdots,Y_r; W_{r+1},\cdots,W_n)^T,\\ \mu = (\nu_1,\cdots,\nu_r;w_{r+1},\cdots,w_n)^T,\\ f_Y(s) = f_X(s,0) = exp\{i\overrightarrow\nu\cdot \overrightarrow s-\frac12 s^T\Sigma_{11}s\}.
X=(Y1,⋯,Yr;Wr+1,⋯,Wn)T,μ=(ν1,⋯,νr;wr+1,⋯,wn)T,fY(s)=fX(s,0)=exp{iν⋅s−21sTΣ11s}.
可以发现,
r
r
r维边缘还是高斯的,而且可以看出,两两不相关等价于相互独立。
Σ
12
=
0
⇒
f
X
→
(
s
;
u
)
=
f
Y
(
s
)
f
W
(
u
)
⇒
独立
\Sigma_{12}=0\Rightarrow f_{\overrightarrow X}(s;u) = f_Y(s)f_W(u)\Rightarrow\textbf{独立}
Σ12=0⇒fX(s;u)=fY(s)fW(u)⇒独立
计算条件分布:
(
X
1
,
⋯
,
X
r
;
X
r
+
1
,
⋯
,
X
n
)
T
=
(
Y
1
,
⋯
,
Y
r
;
W
r
+
1
,
⋯
,
W
n
)
T
(X_1,\cdots,X_r;X_{r+1},\cdots,X_n)^T = (Y_1,\cdots,Y_r;W_{r+1},\cdots,W_n)^T
(X1,⋯,Xr;Xr+1,⋯,Xn)T=(Y1,⋯,Yr;Wr+1,⋯,Wn)T
如果要计算W关于
Y
Y
Y的条件分布,可以考虑做正交分解,设
W
=
B
(
n
−
r
)
×
r
Y
⊕
V
W = B_{(n-r)\times r}Y\oplus V
W=B(n−r)×rY⊕V即
V
=
W
−
B
Y
V=W-BY
V=W−BY。转而去求
Y
,
V
Y,V
Y,V的条件分布,而由于他们俩不相关,则相互独立,条件分布转而变为边缘分布。解出边缘分布(正态的)再用线性变换得到
W
W
W的分布。
首先,
(
Y
1
,
⋯
,
Y
r
;
V
r
+
1
,
⋯
,
V
n
)
T
(Y_1,\cdots,Y_r;V_{r+1},\cdots,V_n)^T
(Y1,⋯,Yr;Vr+1,⋯,Vn)T
服从高斯分布,因为它是
X
X
X的可逆线性变换。
然后计算协方差,
c
o
v
(
V
k
,
Y
i
)
=
c
o
v
(
W
k
−
∑
j
≤
r
b
k
j
Y
j
,
Y
i
)
=
σ
k
i
−
∑
j
≤
r
b
k
j
σ
j
i
=
(
Σ
21
−
B
Σ
11
)
k
i
cov(V_k,Y_i) = cov(W_k-\sum_{j\le r}b_{kj}Y_j,Y_i) = \sigma_{ki}-\sum_{j\le r}b_{kj}\sigma_{ji} = (\Sigma_{21}-B\Sigma_{11})_{ki}
cov(Vk,Yi)=cov(Wk−j≤r∑bkjYj,Yi)=σki−j≤r∑bkjσji=(Σ21−BΣ11)ki
假设
Σ
11
\Sigma_{11}
Σ11非退化,令
B
=
Σ
21
Σ
11
−
1
B= \Sigma_{21}\Sigma_{11}^{-1}
B=Σ21Σ11−1
则
V
∼
N
(
v
→
,
Σ
~
22
)
V\sim N(\overrightarrow v,\tilde \Sigma_{22})
V∼N(v,Σ~22),其中
v
→
=
E
V
=
E
(
W
−
B
Y
)
=
w
→
−
B
ν
→
,
Σ
~
22
=
Σ
22
−
Σ
21
Σ
11
−
1
Σ
12
\overrightarrow v = EV = E(W-BY) = \overrightarrow w-B\overrightarrow\nu,\ \tilde\Sigma_{22} = \Sigma_{22}-\Sigma_{21}\Sigma_{11}^{-1}\Sigma_{12}
v=EV=E(W−BY)=w−Bν, Σ~22=Σ22−Σ21Σ11−1Σ12
于是,在
Y
→
=
y
→
\overrightarrow Y = \overrightarrow y
Y=y的条件下,
W
=
B
y
→
+
V
W = B\overrightarrow y + V
W=By+V,和
Y
Y
Y独立,条件分布为
N
(
w
+
B
(
y
−
ν
)
,
Σ
~
22
)
N(w+B(y-\nu),\tilde\Sigma_{22})
N(w+B(y−ν),Σ~22).