随机过程预备知识
样本空间
如果一个试验E,满足下列条件:
- (1) 在相同的条件下可以重复进行;
- (2) 每次试验的结果不止一个,并且能事先明确试验的所有结果;
- (3) 一次试验结束之前,不能确定哪一个结果会出现,称此试验为随机试验.
随机试验的所有结果所组成的集合称为该试验的样本空间,记为Ω
随机事件
定义(σ代数):设随机试验E 的样本空间为Ω,F 是Ω的子集组成的集族,满足:
(1) Ω∈F ;
(2)若A∈F,则 A ˉ ∈ F \bar{A}∈F Aˉ∈F(对逆运算封闭)
(3)若Ai ∈F(i=1,2,…), ⋃ i = 1 ∞ A i ϵ F \bigcup_{i=1}^{\infty}A_i\epsilon F ⋃i=1∞AiϵF(对可列并运算封闭
)
称F为Ω的一个σ-代数(事件体), F 中的集合称为事件.
概率的公理化定义
设(Ω,F)是一可测空间,对A∈F定义在F上的实值集函数P(A), 满足:
(1)非负性: ∀ A ϵ F , P ( A ) > = 0 \forall A\epsilon F, P(A)>= 0 ∀AϵF,P(A)>=0
(2)规范性:P(Ω) = 1;
(3)完全可加性: ϵ F , A i ∩ A j = φ , i ! = j , 有 P ( ∪ i = 1 ∞ A i ) = ∑ i = 1 ∞ P ( A i ) \epsilon F, A_i \cap A_j = \varphi , i != j, 有P(\cup_{i=1}^{\infty } A_i) = \sum_{i=1}^{\infty }P(A_i) ϵF,Ai∩Aj=φ,i!=j,有P(∪i=1∞Ai)=∑i=1∞P(Ai)
称P是(Ω,F)上的概率(测度),P(A)是事件A的概率.三元体(Ω,F, P)称为概率空间.
概率的性质
设(Ω,F, P)是概率空间,则概率P 有如下性质:
(1) 非负性,P( ϕ \phi ϕ)=0
(2)可加性可列(有限)可加性
:
(3)概率的连续性:
- 若 A 1 ⊃ A 2 ⊃ . . . 且 ⋂ n = 1 ∞ A n = A , 则 : lim n → ∞ P ( A n ) = P ( A ) A_1\supset A_2 \supset ...且 \bigcap_{n=1}^{\infty} A_n = A,则: \lim_{n \to \infty}P(A_n) = P(A) A1⊃A2⊃...且⋂n=1∞An=A,则:limn→∞P(An)=P(A)
条件分布
设(X,Y)的联合分布函数为F(x, y),记
F
Y
∣
X
(
y
∣
x
)
=
P
{
Y
<
=
y
∣
X
=
x
}
=
lim
α
,
β
→
0
+
F
(
x
+
β
,
y
)
−
F
(
x
−
α
,
y
)
F
(
x
+
β
,
∞
)
−
F
(
x
−
α
,
∞
)
F_{Y | X}(y|x) = P\left \{ Y <= y | X=x \right \} \\ = \lim_{\alpha, \beta \to 0^{+}} \frac{F(x+\beta,y ) - F(x - \alpha , y)}{F(x+\beta,\infty ) - F(x - \alpha , \infty )}
FY∣X(y∣x)=P{Y<=y∣X=x}=α,β→0+limF(x+β,∞)−F(x−α,∞)F(x+β,y)−F(x−α,y)
若极限存在,称为在X=x 的条件下,随机变量X的条件分布函数
离散型随机变量(X,Y), 在y=yk条件下X的条件分布函数为:
F
X
∣
Y
(
x
∣
y
k
)
=
P
{
X
<
=
x
∣
y
=
y
k
}
=
∑
x
i
<
=
x
P
(
X
=
x
i
,
Y
=
y
j
)
P
(
Y
=
y
k
)
F_{X | Y}(x|y_k) = P\left \{ X <= x | y=y_k \right \} \\ =\frac{\sum_{x_i<= x}^{}P(X=x_i,Y=y_j) }{P(Y=y_k)}
FX∣Y(x∣yk)=P{X<=x∣y=yk}=P(Y=yk)∑xi<=xP(X=xi,Y=yj)
称为条件分布率
F
Y
∣
X
(
y
∣
x
)
=
P
{
Y
<
=
y
∣
X
=
x
}
=
∫
−
∞
y
f
(
x
,
v
)
d
v
f
X
(
x
)
F_{Y | X}(y|x) = P\left \{ Y <= y | X=x \right \} \\ = \frac{\int_{-\infty }^{y} f(x,v)dv}{f_X(x)}
FY∣X(y∣x)=P{Y<=y∣X=x}=fX(x)∫−∞yf(x,v)dv
f
Y
∣
X
(
y
∣
x
)
=
F
Y
∣
X
′
(
y
∣
x
)
=
f
(
x
,
y
)
f
X
(
y
)
f_{Y | X}(y|x)=F^{'}_{Y | X}(y|x) = \frac {f(x,y)}{f_X(y)}
fY∣X(y∣x)=FY∣X′(y∣x)=fX(y)f(x,y)
为在条件X=x 下, 随机变量Y 的条件密度函数.
数学期望,方差,协方差矩阵和相关系数矩阵
方差:
D ( x ) = ∫ − ∞ + ∞ [ x − E ( x ) ] 2 d F ( x ) > = 0 D(x) = \int_{-\infty }^{+\infty }[x-E(x)]^2dF(x) >= 0\\ D(x)=∫−∞+∞[x−E(x)]2dF(x)>=0
协方差矩阵
C
i
j
=
c
o
v
(
X
i
,
X
j
)
=
E
{
[
X
i
−
E
(
x
i
)
]
[
X
j
−
E
(
x
j
)
]
}
C_{ij} = cov(X_i, X_j) = E\left \{ [X_i - E(x_i)][X_j - E(x_j)] \right \}
Cij=cov(Xi,Xj)=E{[Xi−E(xi)][Xj−E(xj)]}
C
=
(
C
i
j
)
(
n
∗
n
)
=
(
c
11
⋯
c
1
n
⋮
⋱
c
2
n
c
n
1
⋯
c
n
n
)
C= (C_{ij})_{(n*n)} = \begin{pmatrix} c_{11} & \cdots & c_{1n} \\ \vdots & \ddots & c_{2n} \\ c_{n1} & \cdots & c_{nn} \end{pmatrix}
C=(Cij)(n∗n)=⎝⎜⎛c11⋮cn1⋯⋱⋯c1nc2ncnn⎠⎟⎞
‘
C
‘
为
(
X
1
,
X
2
,
X
3
,
.
.
.
.
,
X
n
)
`C`为(X_1,X_2,X_3,....,X_n)
‘C‘为(X1,X2,X3,....,Xn)的协方差矩阵
c
o
v
(
X
)
=
E
[
(
X
−
E
X
)
(
X
−
E
X
)
T
]
c
o
v
(
A
.
X
)
=
A
.
c
o
v
(
A
)
.
A
T
cov(X) = E[(X - EX)(X - EX)^T] \\ cov(A.X) = A . cov(A). A^T
cov(X)=E[(X−EX)(X−EX)T]cov(A.X)=A.cov(A).AT
数学期望与方差的性质
柯西不等式
E
(
X
Y
)
2
<
=
E
X
2
E
Y
2
{E(XY)}^2 <= EX^2EY^2
E(XY)2<=EX2EY2
等式成立的充要条件:
P
(
Y
=
a
0
X
)
=
1
P(Y=a_0X) = 1
P(Y=a0X)=1
特征函数
定义:
设X是定义在(Ω,F, P )上的随机变量,称
φ
(
t
)
=
E
(
e
i
t
X
)
=
∫
−
∞
+
∞
e
i
t
x
d
F
(
x
)
\varphi (t) = E(e^{itX}) = \int_{-\infty }^{+\infty } e^{itx} dF(x)
φ(t)=E(eitX)=∫−∞+∞eitxdF(x)
为X的特征函数
母函数
设X为非负整数值值得随机变量
P
(
X
=
k
)
=
p
k
P(X=k) = p_k
P(X=k)=pk, 则X的母函数为:
g
(
s
)
=
E
s
x
=
∑
k
=
0
∞
,
0
<
=
s
<
=
1
g(s) = Es^x = \sum_{k=0}^{\infty } , 0<=s <=1
g(s)=Esx=k=0∑∞,0<=s<=1
也叫做Z变换
母函数性质
- P k = g ( k ) ( 0 ) / k ! , E ( x ( x − 1 ) . . . ( x − k + 1 ) ) = g k ( 1 ) P_k = g^(k)(0)/ k!, E(x(x-1)...(x-k+1)) = g^{k} (1) Pk=g(k)(0)/k!,E(x(x−1)...(x−k+1))=gk(1)
- E X = g ′ ( 1 ) ; D ( x ) = g ′ ′ ( 1 ) + g ′ ( 1 ) − [ g ′ ( 1 ) ] 2 EX = g^{'}(1); D(x) = g^{''}(1) + g^{'}(1) - [g^{'}(1)]^2 EX=g′(1);D(x)=g′′(1)+g′(1)−[g′(1)]2
n维随机变量的特征函数
定义
φ ( t 1 , t 2 , t 3 , . . . , t n ) = E e i t ′ X = E [ e x p i ( t 1 x 1 + . . . . + t n x n ) ] = ∫ − ∞ + ∞ . . . ∫ − ∞ + ∞ e i ( t 1 x 1 + . . . . + t n x n ) d F ( x 1 , x 2 , . . . , x n ) ) \varphi (t_1,t_2,t_3,...,t_n) = Ee^{it^{'}X} = E[exp{i(t_1x_1 + .... + t_nx_n)}] \\ = \int_{-\infty }^{+\infty } ... \int_{-\infty }^{+\infty } e^{i(t_1x_1 + .... + t_nx_n)} dF(x_1, x_2,...,x_n)) φ(t1,t2,t3,...,tn)=Eeit′X=E[expi(t1x1+....+tnxn)]=∫−∞+∞...∫−∞+∞ei(t1x1+....+tnxn)dF(x1,x2,...,xn))
首先看下关于二维正态分布的推导过程:
首
先
看
一
下
联
合
概
率
密
度
:
f
(
x
)
=
(
2
π
)
−
n
2
∣
C
∣
e
−
1
2
(
x
−
μ
)
′
C
−
1
(
x
−
μ
)
联
合
特
征
函
数
:
φ
(
u
)
=
e
i
μ
′
μ
−
1
2
μ
′
C
μ
首先看一下联合概率密度: f(x)=(2\pi )^{-\frac{n}{2} }\left |C \right | e^{-\frac{1}{2} (x-\mu )' C^{-1}(x-\mu )} \\ 联合特征函数: \varphi (u) = e^{i\mu^{'}\mu - \frac{1}{2}\mu'C\mu}
首先看一下联合概率密度:f(x)=(2π)−2n∣C∣e−21(x−μ)′C−1(x−μ)联合特征函数:φ(u)=eiμ′μ−21μ′Cμ
其中:
X
=
(
X
1
,
X
2
,
X
3
,
.
.
.
,
X
n
)
′
∼
N
(
μ
)
X=(X_1, X_2,X_3,...,X_n)^{'} \sim N(\mu )
X=(X1,X2,X3,...,Xn)′∼N(μ)
μ
=
(
μ
1
,
μ
2
,
.
.
.
.
,
μ
n
)
′
\mu = (\mu_1,\mu_2,....,\mu_n)^{'}
μ=(μ1,μ2,....,μn)′
C
=
(
c
i
j
)
n
∗
n
,
c
i
j
=
c
o
v
(
X
i
,
X
j
)
C=(c_{ij})_{n*n},c_{ij}=cov(X_i,X_j)
C=(cij)n∗n,cij=cov(Xi,Xj)
其中
P
C
P
′
=
∧
=
,
P
为
正
交
矩
阵
,
∧
为
对
角
矩
阵
PCP'=\wedge = ,P为正交矩阵,\wedge 为对角矩阵
PCP′=∧=,P为正交矩阵,∧为对角矩阵
设
Y
∼
N
(
0
,
∧
)
=
N
(
0
,
[
λ
1
0
0
0
0
λ
2
0
0
.
.
.
.
.
.
.
.
.
.
0
0
0
λ
4
]
)
(
其
中
,
λ
k
为
常
数
)
,
则
f
(
y
)
=
(
2
π
)
−
n
2
∣
∧
−
1
2
∣
e
x
p
{
−
1
2
y
′
∧
−
1
y
}
Y\sim N(0,\wedge) = N(0 , \begin{bmatrix} \lambda _1 & 0& 0 & 0\\ 0& \lambda _2 & 0& 0\\ .. & .. & .... &.. \\ 0& 0 & 0 & \lambda_4 \end{bmatrix})(其中,\lambda_k 为常数), 则f(y) = (2\pi)^{-\frac {n} {2}}\left | \wedge ^{-\frac{1}{2} } \right | exp\left \{ -\frac{1}{2} y' \wedge ^{-1} y \right \}
Y∼N(0,∧)=N(0,⎣⎢⎢⎡λ10..00λ2..000....000..λ4⎦⎥⎥⎤)(其中,λk为常数),则f(y)=(2π)−2n∣∣∣∧−21∣∣∣exp{−21y′∧−1y}
对于
Y
∼
N
(
0
,
1
)
,
其
特
征
函
数
为
g
X
(
t
)
=
e
−
t
2
2
,
同
理
,
对
于
Y
∼
N
(
0
,
∧
)
,
则
由
函
数
的
性
质
可
知
:
Y \sim N(0, 1),其特征函数为g_X(t)=e^{-\frac {t^2}{2}},同理,对于Y \sim N(0,\wedge),则由函数的性质可知:
Y∼N(0,1),其特征函数为gX(t)=e−2t2,同理,对于Y∼N(0,∧),则由函数的性质可知:
ϕ
Y
(
u
)
=
e
x
p
(
−
u
′
∧
u
2
)
=
∏
k
=
1
n
e
x
p
(
−
λ
k
2
u
k
2
)
=
e
x
p
(
−
1
2
u
′
P
C
P
′
u
)
\phi _{Y} (u) = exp(-\frac{u^{'}\wedge u}{2} ) \\= \prod_{k=1}^{n}exp(\frac {-\lambda_k}{2}u_{k}^2) \\= exp(-\frac{1}{2} u^{'}PCP^{'}u )
ϕY(u)=exp(−2u′∧u)=k=1∏nexp(2−λkuk2)=exp(−21u′PCP′u)
令
X
=
P
′
Y
+
μ
,
则
Y
=
P
(
X
−
μ
)
,
而
f
(
x
)
多
维
随
机
概
率
密
度
为
:
X=P^{'}Y + \mu,则Y=P(X-\mu), 而f(x)多维随机概率密度为:
X=P′Y+μ,则Y=P(X−μ),而f(x)多维随机概率密度为:
f
(
x
)
=
(
2
π
)
−
n
2
∣
C
∣
−
1
2
exp
{
−
1
2
(
x
−
μ
)
′
C
−
1
(
x
−
μ
)
}
f(x)=(2 \pi)^{-\frac{n}{2}}|C|^{-\frac{1}{2}} \exp \left\{-\frac{1}{2}(x-\mu)^{\prime} C^{-1}(x-\mu)\right\}
f(x)=(2π)−2n∣C∣−21exp{−21(x−μ)′C−1(x−μ)}
对于多维随机变量的Y=AX+b
特征函数:
φ
Y
(
u
)
=
e
i
b
T
u
φ
X
(
A
T
u
)
\varphi _Y(u) = e^{ib^{T}u} \varphi _X(A^{T}u)
φY(u)=eibTuφX(ATu)
ϕ
X
(
u
)
=
E
[
e
i
u
X
]
=
E
[
e
(
P
′
Y
+
μ
)
i
u
]
=
e
i
μ
u
′
E
[
e
i
u
P
′
Y
]
=
ϕ
Y
(
P
u
)
=
e
i
μ
u
′
e
−
1
2
u
′
C
u
\phi _{X}(u) = E[e^{iuX}] = E[e^{(P^{'}Y+\mu)iu}] \\ = e^{i\mu u^{'}}E[e^{iuP^{'}Y}]\\ = \phi _Y (Pu)\\ =e^{i\mu u^{'}} e^{-\frac{1}{2} u^{'} C u}
ϕX(u)=E[eiuX]=E[e(P′Y+μ)iu]=eiμu′E[eiuP′Y]=ϕY(Pu)=eiμu′e−21u′Cu
性质
1.设 X = ( X 1 , X 2 , X 3 , . . , X n ) X=(X_1,X_2,X_3,..,X_n) X=(X1,X2,X3,..,Xn)是n维正态随机变量,则相互独立的充分必要条件是它们两两互不相关,即
cov(Xj,xk) = 0
2.正态随机变量的线性变换仍是正态随机变量:
若 X ∼ N ( μ , C ) , Y = K X , 则 : Y ∼ N ( K μ , K C K T ) 若 X \sim N(\mu, C), Y=KX,则: Y \sim N(K\mu, KCK^T) 若X∼N(μ,C),Y=KX,则:Y∼N(Kμ,KCKT)
3. X = ( X 1 , X 2 , . . . . , X n ) ′ ∼ N ( μ , C ) , 设 Y = ∑ k = 1 n a k X k , 其 中 a k , k = 1 , 2 , . . . , n 为 常 数 : X=(X_1,X_2,....,X_n)' \sim N(\mu , C),设 Y = \sum_{k=1 }^{n} a_kX_k, 其中a_k, k = 1,2,...,n为常数: X=(X1,X2,....,Xn)′∼N(μ,C),设Y=∑k=1nakXk,其中ak,k=1,2,...,n为常数:
Y ∼ N ( ∑ k = 1 n a k μ k , ∑ j − 1 n ∑ k = 1 n a j a k cov ( X j , X k ) ) Y \sim N\left(\sum_{k=1}^{n} a_{k} \mu_{k}, \sum_{j-1}^{n} \sum_{k=1}^{n} a_{j} a_{k} \operatorname{cov}\left(X_{j}, X_{k}\right)\right) Y∼N(∑k=1nakμk,∑j−1n∑k=1najakcov(Xj,Xk))
条件数学期望
设(X, Y)是二维随机变量,条件分布函数. F Y ∣ X ( y ∣ x ) 或 F X ∣ Y ( x ∣ y ) F_{Y \mid X}(y \mid x) \text { 或 } \boldsymbol{F}_{\boldsymbol{X} \mid \boldsymbol{Y}}(\boldsymbol{x} \mid y) FY∣X(y∣x) 或 FX∣Y(x∣y),若
∫ − ∞ + ∞ ∣ y ∣ d F Y ∣ X ( y ∣ x ) < ∞ 或 ∫ − ∞ + ∞ ∣ x ∣ d F X ∣ Y ( x ∣ y ) < ∞ \int_{-\infty}^{+\infty}|\boldsymbol{y}| \boldsymbol{d} \boldsymbol{F}_{\boldsymbol{Y} \mid \boldsymbol{X}}(\boldsymbol{y} \mid \boldsymbol{x})<\infty \text { 或 } \int_{-\infty}^{+\infty}|\boldsymbol{x}| \boldsymbol{d} \boldsymbol{F}_{\boldsymbol{X} \mid \boldsymbol{Y}}(\boldsymbol{x} \mid \boldsymbol{y})<\infty ∫−∞+∞∣y∣dFY∣X(y∣x)<∞ 或 ∫−∞+∞∣x∣dFX∣Y(x∣y)<∞
称为在X=x的条件下,随机变量X的条件数学期望
条件数学期望性质
(1): E ( c ∣ Y ) = c , c 是常数; E(c \mid Y)=c, c \text { 是常数; } E(c∣Y)=c,c 是常数;
(2): E [ a X + b Y ∣ Z ] = a E ( X ∣ Z ) + b E ( Y ∣ Z ) , a , b 是常数 E[a X+b Y \mid Z]=a \mathrm{E}(X \mid Z)+b E(Y \mid Z), a, b \text { 是常数 } E[aX+bY∣Z]=aE(X∣Z)+bE(Y∣Z),a,b 是常数
(3): 如果 X 与Y相互独立, 则 E ( X ∣ Y ) = E ( X ) . \text { 如果 } \mathbf{X} \text { 与Y相互独立, 则 } E(X \mid Y)=E(X) \text {. } 如果 X 与Y相互独立, 则 E(X∣Y)=E(X).
(4) E [ g ( X ) h ( Y ) ∣ X ] = g ( X ) E [ h ( Y ) ∣ X ] E [ g ( X ) h ( Y ) ∣ Y ] = h ( Y ) E [ g ( X ) ∣ Y ] \begin{array}{l} E[g(X) h(Y) \mid X]=g(X) E[h(Y) \mid X] \\ E[g(X) h(Y) \mid Y]=h(Y) E[g(X) \mid Y] \end{array} E[g(X)h(Y)∣X]=g(X)E[h(Y)∣X]E[g(X)h(Y)∣Y]=h(Y)E[g(X)∣Y]
(5) E { E [ g ( X , Y ) ∣ Y ] } = E [ g ( X , Y ) ] E\{E[g(X, Y) \mid Y]\}=E[g(X, Y)] E{E[g(X,Y)∣Y]}=E[g(X,Y)]
(6) E [ X − E ( X ∣ Y ) ] 2 ≤ E [ X − g ( Y ) ] 2 E[X-E(X \mid Y)]^{2} \leq E[X-g(Y)]^{2} E[X−E(X∣Y)]2≤E[X−g(Y)]2
条件方差
方差: Var ( X ) = E [ ( X − μ ) 2 ] = E ( X 2 ) − [ E ( X ) ] 2 \operatorname{Var}(X)=E\left[(X-\mu)^{2}\right]=E\left(X^{2}\right)-[E(X)]^{2} Var(X)=E[(X−μ)2]=E(X2)−[E(X)]2
条件方差: Var ( X ∣ Y ) = E [ ( X − E ( X ∣ Y ) ) 2 ∣ Y ] = E ( X 2 ∣ Y ) − [ E ( X ∣ Y ) ] 2 \operatorname{Var}(X \mid Y)=E\left[(X-E(X \mid Y))^{2} \mid Y\right]=E\left(X^{2} \mid Y\right)-[E(X \mid Y)]^{2} Var(X∣Y)=E[(X−E(X∣Y))2∣Y]=E(X2∣Y)−[E(X∣Y)]2
条件推导过程:
Var ( X ∣ Y ) = E [ ( X − E ( X ∣ Y ) ) 2 ∣ Y ] = E ( X 2 ∣ Y ) − [ E ( X ∣ Y ) ] 2 \operatorname{Var}(X \mid Y)=E\left[(X-E(X \mid Y))^{2} \mid Y\right]=E\left(X^{2} \mid Y\right)-[E(X \mid Y)]^{2} Var(X∣Y)=E[(X−E(X∣Y))2∣Y]=E(X2∣Y)−[E(X∣Y)]2
方差分解:
Var ( X ) = Var [ E ( X ∣ Y ) ] + E [ Var ( X ∣ Y ) ] \operatorname{Var}(X)=\operatorname{Var}[E(X \mid Y)]+E[\operatorname{Var}(X \mid Y)] Var(X)=Var[E(X∣Y)]+E[Var(X∣Y)]
证明: 对于一个随机变量X,定义:
g ( Y ) = E ( X ∣ Y ) , ϵ = X − g ( Y ) g(Y)=E(X \mid Y), \quad \epsilon=X-g(Y) g(Y)=E(X∣Y),ϵ=X−g(Y)
推导可知:
E ( ϵ ) = E ( X ) − E [ E ( X ∣ Y ) ] = 0 E(\epsilon)=E(X)-E[E(X \mid Y)]=0 E(ϵ)=E(X)−E[E(X∣Y)]=0
此时,X的方差:
Var ( X ) = Var [ g ( Y ) + ϵ ] = Var [ g ( Y ) ] + Var ( ϵ ) + 2 Cov [ g ( Y ) , ϵ ] \operatorname{Var}(X)=\operatorname{Var}[g(Y)+\epsilon]=\operatorname{Var}[g(Y)]+\operatorname{Var}(\epsilon)+2 \operatorname{Cov}[g(Y), \epsilon] Var(X)=Var[g(Y)+ϵ]=Var[g(Y)]+Var(ϵ)+2Cov[g(Y),ϵ]
根据协方差定义:
Cov [ g ( Y ) , ϵ ] = E [ [ g ( Y ) − E ( g ( Y ) ) ] [ ϵ − E ( ϵ ) ] ] = 0 \operatorname{Cov}[g(Y), \epsilon]=E[[g(Y)-E(g(Y))][\epsilon-E(\epsilon)]]=0 Cov[g(Y),ϵ]=E[[g(Y)−E(g(Y))][ϵ−E(ϵ)]]=0
又:
Var ( ϵ ) = E [ X − g ( Y ) ] 2 = E [ X 2 + g ( Y ) 2 − 2 X g ( Y ) ] = E [ E [ X 2 ∣ Y ] − g ( Y 2 ) ] = E [ Var ( X ∣ Y ) ] \operatorname{Var}(\epsilon)=E[X-g(Y)]^{2}=E\left[X^{2}+g(Y)^{2}-2 X g(Y)\right]=E\left[E\left[X^{2} \mid Y\right]-g\left(Y^{2}\right)\right]=E[\operatorname{Var}(X \mid Y)] Var(ϵ)=E[X−g(Y)]2=E[X2+g(Y)2−2Xg(Y)]=E[E[X2∣Y]−g(Y2)]=E[Var(X∣Y)]
得证