在开始本节课之前,本着概率论的逻辑,我们首先来定义概率空间 ( Ω , F , P ) (\Omega,\mathscr{F},P) (Ω,F,P),其中 A ∈ F A\in \mathscr{F} A∈F为样本空间中的事件。
随机变量关于随机变量的条件期望
下面给出条件概率和条件期望的定义:
定义:条件概率,条件分布函数,条件期望
- 设
X
,
Y
X,Y
X,Y是离散型随机变量,对给定的
y
y
y,若
P
{
Y
=
y
}
>
0
P\{Y=y\}>0
P{Y=y}>0,则称
P { X = x ∣ Y = y } = P { X = x , Y = y } P { Y = y } P\{X=x|Y=y\}=\frac{P\{X=x,Y=y\}}{P\{Y=y\}} P{X=x∣Y=y}=P{Y=y}P{X=x,Y=y}
为给定 Y = y Y=y Y=y时 X X X的条件概率。
此时 Y = y Y=y Y=y, X X X的分布函数为:
F ( x ∣ y ) = P { X ≤ x ∣ Y = y } , x ∈ R F(x|y)=P\{X\le x|Y=y\},x\in R F(x∣y)=P{X≤x∣Y=y},x∈R
X的条件期望为:
E [ X ∣ Y = y ] = ∫ x d F ( x ∣ y ) = ∑ x x P { X = x ∣ Y = y } E[X|Y=y]=\int xdF(x|y)=\sum_x xP\{X=x|Y=y\} E[X∣Y=y]=∫xdF(x∣y)=x∑xP{X=x∣Y=y} - 若
X
,
Y
X,Y
X,Y是连续型随机变量,
其联合概率密度为 f ( x , y ) f(x,y) f(x,y),
则对一切使 f Y ( y ) > 0 f_Y(y)>0 fY(y)>0的 y y y,给定 Y = y Y=y Y=y时,
X X X的条件概率密度定义为:
f ( x ∣ y ) = f ( x , y ) f Y ( y ) f(x|y)=\frac{f(x,y)}{f_Y(y)} f(x∣y)=fY(y)f(x,y)
给定 Y = y Y=y Y=y时, X X X的条件分布函数为:
F ( x ∣ y ) = P { X ≤ x ∣ Y = y } = ∫ − ∞ x f ( u ∣ y ) d u , F(x|y)=P\{X\le x|Y=y\}=\int_{-\infty}^xf(u|y)du, F(x∣y)=P{X≤x∣Y=y}=∫−∞xf(u∣y)du,
而给定 Y = y Y=y Y=y时, X X X的条件分布期望定义为:
E [ X ∣ Y = y ] = ∫ x d F ( x ∣ y ) = ∫ x f ( x ∣ y ) d x E[X|Y=y]=\int xdF(x|y)=\int xf(x|y)dx E[X∣Y=y]=∫xdF(x∣y)=∫xf(x∣y)dx
注:
-
X
,
Y
X,Y
X,Y都是随机变量,实则是从样本空间
Ω
\Omega
Ω到实数轴
R
R
R上的映射。而
x
,
y
x,y
x,y是什么呢?是映射的像值,是
R
R
R上的一个定值。
-
E
(
X
∣
Y
)
E(X|Y)
E(X∣Y)对于每一个随机变量
Y
Y
Y的取值
y
y
y有一个取值,因而我可以将
E
(
X
∣
Y
)
E(X|Y)
E(X∣Y)看做是有关随机变量Y 取值
y
y
y的函数
h
(
y
)
h(y)
h(y)。
( h ( Y ) h(Y) h(Y)和 h ( y ) h(y) h(y)不太一样, h ( Y ) h(Y) h(Y)是由 Y Y Y和 h h h复合而成的从样本空间 F F F到 R R R上的映射,而 h ( y ) h(y) h(y)仅仅是从 R R R到 R R R上的映射。)
h ( Y ) : F ⟶ Y R ⟶ E ( X ∣ Y ) R A ⟶ Y y ⟶ E ( X ∣ Y ) E ( X ∣ Y = y ) \begin{aligned} h(Y):&F\stackrel{Y}{\longrightarrow} R \stackrel{E(X|Y)}{\longrightarrow} R\\ &A\stackrel{Y}{\longrightarrow} y \stackrel{E(X|Y)}{\longrightarrow} E(X|Y=y) \end{aligned} h(Y):F⟶YR⟶E(X∣Y)RA⟶Yy⟶E(X∣Y)E(X∣Y=y)
h ( y ) : R ⟶ E ( X ∣ Y ) R y ⟶ E ( X ∣ Y ) E ( X ∣ Y = y ) \begin{aligned} h(y):&R \stackrel{E(X|Y)}{\longrightarrow} R\\ &y \stackrel{E(X|Y)}{\longrightarrow} E(X|Y=y) \end{aligned} h(y):R⟶E(X∣Y)Ry⟶E(X∣Y)E(X∣Y=y) - 在
X
,
Y
X,Y
X,Y为连续型随机变量时,对
y
y
y要求
f
Y
(
y
)
>
0
f_Y(y)>0
fY(y)>0,目的是为了使得条件概率密度函数
f
(
x
∣
y
)
=
f
(
x
,
y
)
f
Y
(
y
)
f(x|y)=\frac{f(x,y)}{f_Y(y)}
f(x∣y)=fY(y)f(x,y)有意义。但是其实如果
f
Y
(
y
)
=
0
f_Y(y)=0
fY(y)=0,我们也能够有计算的方法:
但是这要用到测度论的内容,这个因为还没有学到严谨的定义,因而日后在开 这个坑。
在上面注记2中,我们注意到 h ( Y ) = E ( X ∣ Y ) h(Y)=E(X|Y) h(Y)=E(X∣Y)其实也是一个随机变量,在这里我们给这个特殊的随机变量一个名字,称之为X对Y的条件数学期望。(注意 h ( y ) h(y) h(y)本身并不是一个随机变量)。
对于多元情形
h
(
Y
1
,
Y
2
,
.
.
.
,
Y
n
)
E
(
X
∣
Y
1
,
Y
2
,
.
.
.
,
Y
n
)
h(Y_1,Y_2,...,Y_n)E(X|Y_1,Y_2,...,Y_n)
h(Y1,Y2,...,Yn)E(X∣Y1,Y2,...,Yn)和刚刚的一元情形实际上是类似的,记
h
(
y
1
,
y
2
,
.
.
.
,
y
n
)
=
E
(
X
∣
Y
1
=
y
1
,
Y
2
=
y
2
,
.
.
.
Y
n
=
y
n
)
h(y_1,y_2,...,y_n)=E(X|Y_1=y_1,Y_2=y_2,...Y_n=y_n)
h(y1,y2,...,yn)=E(X∣Y1=y1,Y2=y2,...Yn=yn)
随机变量关于子 σ − \sigma- σ−代数的条件期望
Questions:
- 什么叫做
A
\mathscr{A}
A-可测?
实数上的任何博雷尔可测集在 X X X下的原像属于 A \mathscr{A} A,那么就称 X X X是 A \mathscr{A} A可测的。 - 什么叫做可积随机变量?
R R R上任意 B o r e l Borel Borel集在随机变量 ξ \xi ξ的映射原像为 F \mathscr{F} F中 σ − \sigma- σ−代数中的事件,那么称随机变量 ξ \xi ξ可测。
通过该映射我们可以建立起对应于 ( Ω , F , P ) 的 (\Omega,\mathscr{F},P)的 (Ω,F,P)的 ( R , ξ ) (R,\xi) (R,ξ)上的度量 ( R , B , P ( ⋅ ) ) (R,\mathscr{B},P(\cdot)) (R,B,P(⋅)),
我们之前考虑的概率分布函数 F ( x ) = P ( ξ ≤ x ) F(x)=P(\xi\le x) F(x)=P(ξ≤x)其实就生成了 ( R , B ) (R,\mathscr{B}) (R,B)上的度量 P ( ⋅ ) P(\cdot) P(⋅),有了度量空间 ( R , B , P ( ⋅ ) ) (R,\mathscr{B},P(\cdot)) (R,B,P(⋅)),我们就能够在其上计算积分 ∑ x P ( x ) = ∫ x d F ( x ) \sum xP(x)=\int x dF(x) ∑xP(x)=∫xdF(x),所谓可积随机变量,其实是随机变量可积。也就是指其期望存在。 - E [ ξ ∣ B ] = E [ η ∣ B ] E[\xi|B]=E[\eta|B] E[ξ∣B]=E[η∣B]这个数学表述的具体含义用文字表述是什么?
-
(
Ω
,
F
,
P
(
⋅
)
)
⟶
X
(
r
.
v
.
)
(
R
,
B
,
F
X
)
⟶
g
(
⋅
)
:
R
→
R
(
R
,
B
,
F
g
(
X
)
)
(\Omega,\mathscr{F},P(\cdot)) \stackrel{X(r.v.)}{\longrightarrow}(R,\mathscr{B},F_X )\stackrel{g(\cdot):R\rightarrow R}{\longrightarrow}(R,\mathscr{B},F_{g(X)})
(Ω,F,P(⋅))⟶X(r.v.)(R,B,FX)⟶g(⋅):R→R(R,B,Fg(X))
在这个映射作用下,那些信息被保留了下来,作为整个传递过程的不变量?那些信息在传递过程中流失了?
(在映射过程中,只要求像空间中 σ − \sigma- σ−代数中元素的原像是原像空间中的 σ − \sigma- σ−代数中元素,但是原像空间中的 σ − \sigma- σ−代数中元素的像未必是像空间中 σ − \sigma- σ−代数中元素。例子:可测函数中,原像中的可测集可能映射为像空间中的不可测集,比如常值函数。)
注:
1)
ξ
\xi
ξ关于
A
\mathscr{A}
A的条件数学期望
E
[
ξ
∣
A
]
E[\xi|\mathscr{A}]
E[ξ∣A]是一个随机变量
2)
A
\mathscr{A}
A是一个
σ
−
\sigma-
σ−代数,同时其本体也就是一个集族。