参考书:《概率导论》,作者:Dimitri P. Bertsekas,John N. Tsitsiklis。
本系列博客为自学《概率导论》笔记。
思维导图
基本概念
对于样本空间中的每一个试验结果,都关联着一个特定的数。这种试验结果与数的对应关系形成随机变量。
我们将试验结果所对应的数称为随机变量的取值。
从数学上讲,随机变量是试验结果的实值函数。
- 与随机变量相关的主要概念:
在一个试验的概率模型之下:- 随机变量是试验结果的实值函数;
- 随机变量的函数定义了另一个随机变量;
- 对于一个随机变量,我们可以定义一些平均值,例如均值和方差;
- 可以在某事件或某随机事件的条件之下定义一个随机变量;
- 存在一个随机变量与某事件或某随机变量相互独立的概念。
- 若一个随机变量的值域(随机变量的取值范围)为一个有限集合或最多为可数无限集合,则称这个随机变量为离散的。
- 与离散随即变量相关的概念:
在一个试验的概率模型之下:- 离散随机变量是试验结果的一个实值函数,但是它的取值范围只能是有限多个值或可数无限多个值;
- 一个离散随机变量有一个分布列,它对于随机变量的每一个取值,给出一个概率;
- 离散随机变量的函数也是一个离散随机变量,它的分布列可以从原来的随机变量的分布列得到。
分布列
- 离散随机变量的取值概率是随机变量的最重要的特征,我们用分布列表示这种特征,并且有 p X p_X pX表示随机变量 X X X的分布列。
- 设 x x x是随机变量 X X X的取值,则 X X X取值为 x x x的概率定义为事件 { X = x } \lbrace{X=x}\rbrace {X=x}的概率,即所有与 x x x对应的试验结果所组成的事件的概率,用 p X ( x ) p_X(x) pX(x)表示,即 p X ( x ) = P ( { X = x } ) . p_X(x)=P(\lbrace{X=x}\rbrace). pX(x)=P({X=x}).
- 为了不引起混淆,我们用 P ( X = x ) P(X=x) P(X=x)表示事件 { X = x } \lbrace{X=x}\rbrace {X=x}的概率。
- 我们用大写字母表示随机变量,用小写字母表示实数。
- 对于分布列,我们有 ∑ x p X ( x ) = 1. \sum_xp_X(x)=1. x∑pX(x)=1.其中求和是对随机变量 X X X的一切可能的取值而来的。
- 对于不同的 x x x,事件 { X = x } \lbrace{X=x}\rbrace {X=x}是互不相容的,并且对所有的 x x x,事件系列 { X = x } \lbrace{X=x}\rbrace {X=x}形成了样本空间的一个分割。利用类似原理可以证明,对于任意一个 X X X的可能值的集合 S S S,下式成立: P ( X ∈ S ) = ∑ x ∈ S p X ( x ) . P(X \in S)=\sum_{x \in S}p_X(x). P(X∈S)=x∈S∑pX(x).
- 随机变量
X
X
X的分布列的计算:
对每一个随机变量 X X X的值 x x x:- (1)找出与事件 { X = x } \lbrace{X=x}\rbrace {X=x}相对应的所有试验结果;
- (2)将相应的试验结果的概率相加得到 p X ( x ) . p_X(x). pX(x).
伯努利随机变量
- 考虑抛掷一枚硬币。设正面向上的概率为 p p p,反面向上的概率为 1 − p 1-p 1−p.伯努利随机变量在试验结果为正面向上时取值为1,在试验结果为反面向上时取值为0,即 X = { 0 , 若 反 面 向 上 1 , 若 正 面 向 上 X=\bigg\lbrace_{0,若反面向上}^{1,若正面向上} X={0,若反面向上1,若正面向上
- 伯努利(Bernoulli)随机变量的分布列为 p X ( k ) = { 1 − p , 若 k = 0 p , 若 k = 1 p_X(k)=\bigg\lbrace_{1-p,若k=0}^{p,若k=1} pX(k)={1−p,若k=0p,若k=1
- 在实际中,伯努利随机变量用于刻画具有两个试验结果的概率模型。
二项随机变量
- 将一枚硬币抛掷 n n n次,每次抛掷,正面出现的概率为 p p p,反面出现的概率为 1 − p 1-p 1−p,而且各次抛掷是相互独立的。令 X X X为 n n n次抛掷得到正面的次数。我们称 X X X为二项随机变量,其参数为 n n n和 p p p. X X X的分布列是: p X ( k ) = P ( X = k ) = ( n k ) p k ( 1 − p ) n − k , k = 0 , 1 , ⋯ , n . p_X(k)=P(X=k)=\binom{n}{k}p^k(1-p)^{n-k},k=0,1,\cdots,n. pX(k)=P(X=k)=(kn)pk(1−p)n−k,k=0,1,⋯,n.对于二项随机变量,利用归一化公理可以得到: ∑ k = 0 n ( n k ) p k ( 1 − p ) n − k = 1. \sum_{k=0}^n\binom{n}{k}p^k(1-p)^{n-k}=1. k=0∑n(kn)pk(1−p)n−k=1.
几何随机变量
- 在连续抛掷硬币的试验中,每次抛掷,正面出现的概率为 p p p,反面出现的概率为 1 − p 1-p 1−p,而且各次抛掷是相互独立的。令 X X X为连续抛掷一枚硬币,直到第一次(第 k k k次)出现正面所需要抛掷的次数。 X X X就称为几何随机变量。前 k − 1 k-1 k−1次抛掷的结果为反面向上,第 k k k次抛掷的结果为正面向上的概率为 ( 1 − p ) k − 1 p . (1-p)^{k-1}p. (1−p)k−1p.因此, X X X的分布列为: p X ( k ) = ( 1 − p ) k − 1 p , k = 1 , 2 , ⋯ . p_X(k)=(1-p)^{k-1}p,k=1,2,\cdots. pX(k)=(1−p)k−1p,k=1,2,⋯.归一化为: ∑ k = 1 ∞ p X ( k ) = ∑ k = 1 ∞ ( 1 − p ) k − 1 p = p ∑ k = 0 ∞ ( 1 − p ) k = p 1 1 − ( 1 − p ) = 1. \sum_{k=1}^\infty p_X(k)=\sum_{k=1}^\infty (1-p)^{k-1}p=p\sum_{k=0}^\infty (1-p)^k=p \frac {1}{1-(1-p)}=1. k=1∑∞pX(k)=k=1∑∞(1−p)k−1p=pk=0∑∞(1−p)k=p1−(1−p)1=1.
泊松随机变量
- 设随机变量
X
X
X分布列为
p
X
(
k
)
=
e
−
λ
λ
k
k
!
,
k
=
0
,
1
,
2
,
⋯
.
p_X(k)=e^{-\lambda}\frac {\lambda ^k}{k!},k=0,1,2,\cdots.
pX(k)=e−λk!λk,k=0,1,2,⋯.其中
λ
\lambda
λ是刻画分布列的取正值的参数,则称
X
X
X为泊松随机变量。
归一化为: ∑ k = 0 ∞ e − λ λ k k ! = e − λ ( 1 + λ + λ 2 2 ! + ⋯ ) = e − λ e λ = 1. \sum_{k=0}^\infty e^{-\lambda}\frac {\lambda ^k}{k!}=e^{-\lambda}(1+\lambda+\frac {\lambda^2}{2!}+\cdots)=e^{-\lambda}e^{\lambda}=1. k=0∑∞e−λk!λk=e−λ(1+λ+2!λ2+⋯)=e−λeλ=1. - 泊松随机变量适合用于 n n n很大, p p p很小的情况。类似于试验次数很多,但是正面向上的概率很小的情况。
- 当 λ ≤ 1 \lambda≤1 λ≤1时,分布列单调递减;当 λ > 1 \lambda>1 λ>1时,分布列随着 k k k的递增,先递增后递减。
- 泊松随机变量逼近二项随机变量: e − λ λ k k ! ≈ n ! k ! ( n − k ) ! p k ( 1 − p ) n − k , k = 0 , 1 , 2 , ⋯ , n . e^{-\lambda}\frac {\lambda ^k}{k!} \approx \frac{n!}{k!(n-k)!}p^k(1-p)^{n-k},k=0,1,2,\cdots,n. e−λk!λk≈k!(n−k)!n!pk(1−p)n−k,k=0,1,2,⋯,n.其中 λ = n p \lambda=np λ=np, n n n很大, p p p很小。
随机变量的函数
- 设 X X X是一个随机变量。对 X X X施行不同的变换,可以得到其它的随机变量。
- 设 Y = g ( X ) Y=g(X) Y=g(X)是随机变量 X X X的函数,由于对每一个试验结果,也对应一个( Y Y Y的)数值,故 Y Y Y本身也是一个随机变量。
- 如果 X X X是离散的随机变量,其对应的分布列为 p X ( x ) p_X(x) pX(x),则 Y Y Y也是离散随机变量,其分布列可通过 X X X的分布列进行计算。实际上,对固定的 y y y值, p Y ( y ) p_Y(y) pY(y)的值可以通过下式计算: p Y ( y ) = ∑ { x ∣ g ( x ) = y } p X ( x ) . p_Y(y)=\sum_{\lbrace{x|g(x)=y}\rbrace}p_X(x). pY(y)={x∣g(x)=y}∑pX(x).
期望、均值和方差
- 期望:
设随机变量 X X X的分布列为 p X p_X pX. X X X的期望值(也称期望或均值)由下式给出: E [ X ] = ∑ x x p X ( x ) . E[X]=\sum_x xp_X(x). E[X]=x∑xpX(x).
方差、矩和随机变量的函数的期望规则
- 随机变量 X 2 X^2 X2的均值(即 E [ X 2 ] E[X^2] E[X2]),称为随机变量 X X X的二阶矩。
- n n n阶矩 E [ X n ] E[X^n] E[Xn]定义为 X n X^n Xn的期望值。均值本身刚好是一阶矩。
- 方差:
记作 v a r ( X ) var(X) var(X): v a r ( X ) = E [ ( X − E [ X ] ) 2 ] = ∑ x ( x − E [ X ] ) 2 p X ( x ) . var(X)=E[(X-E[X])^2]=\sum_x(x-E[X])^2p_X(x). var(X)=E[(X−E[X])2]=x∑(x−E[X])2pX(x).方差只能是非负值,提供了 X X X在期望周围分散程度的一个测度。分散程度的另一个测度是标准差。 - 标准差:
σ X = v a r ( X ) . \sigma_X=\sqrt {var(X)}. σX=var(X).标准差具有实用性,因为它的量纲与 X X X相同。 - 随机变量的函数的期望规则:
设随机变量 X X X的分布列为 p X p_X pX,又设 g ( X ) g(X) g(X)是 X X X的一个函数,则 g ( X ) g(X) g(X)的期望由下列公式得到 E [ g ( X ) ] = ∑ x g ( x ) p X ( x ) . E[g(X)]=\sum_x g(x)p_X(x). E[g(X)]=x∑g(x)pX(x). - 计算
X
X
X的
n
n
n阶矩:
E [ X n ] = ∑ x x n p X ( x ) . E[X^n]=\sum_x x^np_X(x). E[Xn]=x∑xnpX(x).
均值和方差的性质
- 随机变量的线性函数的均值和方差:
设 X X X为随机变量,令 Y = a X + b , Y=aX+b, Y=aX+b,其中, a a a和 b b b为给定的常数,则 E [ Y ] = a E [ X ] + b , v a r ( Y ) = a 2 v a r ( X ) . E[Y]=aE[X]+b,var(Y)=a^2var(X). E[Y]=aE[X]+b,var(Y)=a2var(X). - 用矩表达的方差公式:
v a r ( X ) = E [ X 2 ] − ( E [ X ] ) 2 . var(X)=E[X^2]-(E[X])^2. var(X)=E[X2]−(E[X])2. - 陷阱: 除非 g ( X ) g(X) g(X)是一个线性函数,一般情况下, E [ g ( X ) ] ≠ g ( E [ X ] ) E[g(X)]≠g(E[X]) E[g(X)]=g(E[X])
某些常用的随机变量的均值和方差
- 伯努利随机变量的均值和方差:
- 伯努利随机变量的分布列为: p X ( k ) = { 1 − p , 若 k = 0 p , 若 k = 1 p_X(k)=\bigg\lbrace_{1-p,若k=0}^{p,若k=1} pX(k)={1−p,若k=0p,若k=1
- 下面给出其均值、二阶矩、方差的计算公式: E [ X ] = 1 ⋅ p + 0 ⋅ ( 1 − p ) = p ; E[X]=1\cdot p+0\cdot (1-p)=p; E[X]=1⋅p+0⋅(1−p)=p; E [ X 2 ] = 1 2 ⋅ p + 0 2 ⋅ ( 1 − p ) = p ; E[X^2]=1^2\cdot p+0^2\cdot (1-p)=p; E[X2]=12⋅p+02⋅(1−p)=p; v a r ( X ) = E [ X 2 ] − ( E [ X ] ) 2 = p − p 2 = p ( 1 − p ) . var(X)=E[X^2]-(E[X])^2=p-p^2=p(1-p). var(X)=E[X2]−(E[X])2=p−p2=p(1−p).
- 离散均匀随机变量的均值和方差:
- 离散均匀随机变量的分布列为: p X ( k ) = { 0 , 其 它 1 b − a + 1 , 若 k = a , a + 1 , ⋯ , b p_X(k)=\bigg\lbrace_{0,其它}^{\frac {1}{b-a+1},若k=a,a+1,\cdots,b} pX(k)={0,其它b−a+11,若k=a,a+1,⋯,b其中, a , b a,b a,b是两个整数,作为随机变量的值域的两个端点。其分布列相对于 a + b 2 \frac {a+b}{2} 2a+b是对称的。
- 下面是其均值、方差的计算公式: E [ X ] = a + b 2 , E[X]=\frac {a+b}{2}, E[X]=2a+b, v a r ( X ) = ( b − 1 ) ( b − a + 2 ) 12 var(X)=\frac {(b-1)(b-a+2)}{12} var(X)=12(b−1)(b−a+2)
- 泊松随机变量的均值和方差:
- 泊松随机变量的分布列为: p X ( k ) = e − λ λ k k ! , k = 0 , 1 , 2 , ⋯ . p_X(k)=e^{-\lambda}\frac {\lambda ^k}{k!},k=0,1,2,\cdots. pX(k)=e−λk!λk,k=0,1,2,⋯.
- 下面是其均值、方差的计算公式: E [ X ] = λ , E[X]=\lambda, E[X]=λ, v a r ( X ) = λ var(X)=\lambda var(X)=λ
利用期望值进行决策
- 如果把期望回报看成一个处理方案长期重复执行的平均回报,则选择具有最大期望的回报。
多个随机变量的联合分布列
- 设在同一个试验中,由两个随机变量 X X X和 Y Y Y,它们的取值概率可以用它们的联合分布列刻画,并且用 p X , Y p_{X,Y} pX,Y表示。设 ( x , y ) (x,y) (x,y)是 X X X和 Y Y Y的可能取值, ( x , y ) (x,y) (x,y)的概率质量定义为事件 { X = x , Y = y } \lbrace{X=x,Y=y}\rbrace {X=x,Y=y}的概率: p X , Y = P ( X = x , Y = y ) . p_{X,Y}=P(X=x,Y=y). pX,Y=P(X=x,Y=y).
- 利用联合分布列可以确定任何由随机变量 X X X和 Y Y Y所刻画的事件的概率,例如 A A A是某些 ( x , y ) (x,y) (x,y)所形成的集合,则 P ( ( X , Y ) ∈ A ) = ∑ ( x , y ) ∈ A p X , Y ( x , y ) . P((X,Y)\in A)=\sum_{(x,y)\in A}p_{X,Y}(x,y). P((X,Y)∈A)=(x,y)∈A∑pX,Y(x,y).
- 利用 X X X和 Y Y Y的联合分布列计算 X X X或 Y Y Y的分布列: p X ( x ) = ∑ y p X , Y ( x , y ) , p Y ( y ) ∑ x p X , Y ( x , y ) . p_X(x)=\sum_y p_{X,Y}(x,y),p_Y(y)\sum_x p_{X,Y}(x,y). pX(x)=y∑pX,Y(x,y),pY(y)x∑pX,Y(x,y).称 p X ( x ) p_X(x) pX(x)或 p Y ( y ) p_Y(y) pY(y)为边缘分布列。
多个随机变量的函数
- 从二元函数 Z = g ( X , Y ) Z=g(X,Y) Z=g(X,Y)可以确定一个新的随机变量。这个新的随机变量的分布列可以从联合分布列通过下式计算: p Z ( z ) = ∑ { ( x , y ) ∣ g ( x , y ) = z } p X , Y ( x , y ) . p_Z(z)=\sum_{\lbrace{(x,y)|g(x,y)=z}\rbrace}p_{X,Y}(x,y). pZ(z)={(x,y)∣g(x,y)=z}∑pX,Y(x,y).进一步地,关于随机变量的函数的期望规则可以推广成下列形式 E [ g ( X , Y ) ] = ∑ x ∑ y g ( x , y ) p X , Y ( x , y ) . E[g(X,Y)]=\sum_x\sum_yg(x,y)p_{X,Y}(x,y). E[g(X,Y)]=x∑y∑g(x,y)pX,Y(x,y).特别地,当 g g g是形如 a X + b Y + c aX+bY+c aX+bY+c的线性函数的时候,我们有 E [ a X + b Y + c ] = a E [ X ] + b E [ Y ] + c , E[aX+bY+c]=aE[X]+bE[Y]+c, E[aX+bY+c]=aE[X]+bE[Y]+c,其中 a , b , c a,b,c a,b,c均为给定的常数。
多于两个随机变量的情况
- 设有三个随机变量 X , Y , Z X,Y,Z X,Y,Z,其联合分布列的定义是类似的,即: p X , Y , Z ( x , y , z ) = P ( X = x , Y = y , Z = z ) , p_{X,Y,Z}(x,y,z)=P(X=x,Y=y,Z=z), pX,Y,Z(x,y,z)=P(X=x,Y=y,Z=z),其中 ( x , y , z ) (x,y,z) (x,y,z)是 ( X , Y , Z ) (X,Y,Z) (X,Y,Z)的所有可能的取值。相应地,可以得到边缘分布, p X , Y ( x , y ) = ∑ z p X , Y , Z ( x , y , z ) , p_{X,Y}(x,y)=\sum_zp_{X,Y,Z}(x,y,z), pX,Y(x,y)=z∑pX,Y,Z(x,y,z), p X ( x ) = ∑ y ∑ z p X , Y , Z ( x , y , z ) . p_X(x)=\sum_y\sum_zp_{X,Y,Z}(x,y,z). pX(x)=y∑z∑pX,Y,Z(x,y,z).关于随机变量的函数的期望规则为 E [ g ( X , Y , Z ) ] = ∑ x ∑ y ∑ z g ( x , y , z ) p X , Y , Z ( x , y , z ) , E[g(X,Y,Z)]=\sum_x\sum_y\sum_zg(x,y,z)p_{X,Y,Z}(x,y,z), E[g(X,Y,Z)]=x∑y∑z∑g(x,y,z)pX,Y,Z(x,y,z),并且,如果 g g g是形如 a X + b Y + c Z + d aX+bY+cZ+d aX+bY+cZ+d线性函数,则 E [ a X + b Y + c Z + d ] = a E [ X ] + b E [ Y ] + c E [ Z ] + d , E[aX+bY+cZ+d]=aE[X]+bE[Y]+cE[Z]+d, E[aX+bY+cZ+d]=aE[X]+bE[Y]+cE[Z]+d,进一步,推广到 n n n个随机变量的情况: E [ a 1 X 1 + a 2 X 2 + ⋯ + a n X n ] = a 1 E [ X 1 ] + a 2 E [ X 2 ] + ⋯ + a n E [ X n ] E[a_1X_1+a_2X_2+\cdots+a_nX_n]=a_1E[X_1]+a_2E[X_2]+\cdots+a_nE[X_n] E[a1X1+a2X2+⋯+anXn]=a1E[X1]+a2E[X2]+⋯+anE[Xn]
条件
某个事件发生的条件下的随机变量
- 在某个事件 A ( P ( A ) > 0 ) A(P(A)>0) A(P(A)>0)发生的条件下,随机变量 X X X的条件分布列由下式给定: p X ∣ A ( x ) = P ( X = x ∣ A ) = P ( { X = x } ∩ A ) P ( A ) . p_{X|A}(x)=P(X=x|A)=\frac {P(\lbrace{X=x}\rbrace\cap A)}{P(A)}. pX∣A(x)=P(X=x∣A)=P(A)P({X=x}∩A).
- 条件分布列的计算是,将满足 X = x X=x X=x并且属于 A A A的试验结果的概率相加,最后除以 P ( A ) P(A) P(A),便得到 p X ∣ A ( x ) p_{X|A}(x) pX∣A(x)的值。
给定另一个随机变量的值的条件下的随机变量
- 设某一个试验中有两个随机变量 X X X和 Y Y Y。我们假定随机变量 Y Y Y已经取定一个值 y ( p Y ( y ) > 0 ) y(p_Y(y)>0) y(pY(y)>0),这个 y y y值提供了关于 X X X取值的部分信息。这些信息包含于 X X X的给定 Y Y Y的值的条件分布列 p X ∣ Y p_{X|Y} pX∣Y中。所谓条件分布列就是 p X ∣ A p_{X|A} pX∣A,其中事件A就是事件 { Y = y } \lbrace{Y=y}\rbrace {Y=y}: p X ∣ Y ( x ∣ y ) = P ( X = x ∣ Y = y ) . p_{X|Y}(x|y)=P(X=x|Y=y). pX∣Y(x∣y)=P(X=x∣Y=y).利用条件概率的定义,我们有 p X ∣ Y ( x ∣ y ) = P ( X = x , Y = y ) P ( Y = y ) = p X , Y ( x , y ) p Y ( y ) . p_{X|Y}(x|y)=\frac {P(X=x,Y=y)}{P(Y=y)}=\frac {p_{X,Y}(x,y)}{p_Y(y)}. pX∣Y(x∣y)=P(Y=y)P(X=x,Y=y)=pY(y)pX,Y(x,y).
条件期望(全期望定理)
设 X X X和 Y Y Y为某一试验中的两个随机变量。
- 设 A A A为某事件, P ( A ) > 0 P(A)>0 P(A)>0,随机变量 X X X在给定 A A A发生的条件下的条件期望为 E [ X ∣ A ] = ∑ x x p X ∣ A ( x ) . E[X|A]=\sum_xxp_{X|A}(x). E[X∣A]=x∑xpX∣A(x).对于函数 g ( X ) g(X) g(X),我们有 E [ g ( X ) ∣ A ] = ∑ x g ( x ) p X ∣ A ( x ) . E[g(X)|A]=\sum_xg(x)p_{X|A}(x). E[g(X)∣A]=x∑g(x)pX∣A(x).
- 给定 Y = y Y=y Y=y的条件下 X X X的条件期望由下式定义 E [ X ∣ Y = y ] = ∑ x x p X ∣ Y ( x ∣ y ) . E[X|Y=y]=\sum_xxp_{X|Y}(x|y). E[X∣Y=y]=x∑xpX∣Y(x∣y).
- 设 A 1 , ⋯ , A n A_1,\cdots,A_n A1,⋯,An是互不相容的事件并且形成样本空间的一个分割,假定 P ( A i ) > 0 P(A_i)>0 P(Ai)>0对一切 i i i成立,则 E [ X ] = ∑ i = 1 n P ( A i ) E [ X ∣ A i ] . E[X]=\sum_{i=1}^nP(A_i)E[X|A_i]. E[X]=i=1∑nP(Ai)E[X∣Ai].进一步假定事件 B B B满足对一切 i i i, P ( A i ∩ B ) > 0 P(A_i \cap B)>0 P(Ai∩B)>0,则 E [ X ∣ B ] = ∑ i = 1 n P ( A i ∣ B ) E [ X ∣ A i ∩ B ] . E[X|B]=\sum_{i=1}^nP(A_i|B)E[X|A_i \cap B]. E[X∣B]=i=1∑nP(Ai∣B)E[X∣Ai∩B].
- 我们有 E [ X ] = ∑ y p Y ( y ) E [ X ∣ Y = y ] . E[X]=\sum_yp_Y(y)E[X|Y=y]. E[X]=y∑pY(y)E[X∣Y=y].
独立性
随机变量与事件的相互独立性
- 随机变量与事件的独立性 的概念与 两个事件的相互独立性 的概念是相同的。
- 基本思想是:刻画条件的事件的发生与否不会对随机变量取值提供新的信息。
- 随机变量 X 独 立 于 事 件 A X独立于事件A X独立于事件A是指 P ( X = x 且 A ) = P ( X = x ) P ( A ) = p X ( x ) P ( A ) 对 一 切 x 成 立 , P(X=x且A)=P(X=x)P(A)=p_X(x)P(A)对一切x成立, P(X=x且A)=P(X=x)P(A)=pX(x)P(A)对一切x成立,这个条件等价于:对任何 x x x,随机事件 { X = x } \lbrace{X=x}\rbrace {X=x}与事件 A A A相互独立。由条件分布列的定义, P ( X = x 且 A ) = p X ∣ A ( x ) P ( A ) , P(X=x且A)=p_{X|A}(x)P(A), P(X=x且A)=pX∣A(x)P(A),所以,只要 P ( A ) > 0 P(A)>0 P(A)>0,随机变量 X X X与事件 A A A的独立性与下面的条件是等价的: p X ∣ A ( x ) = p X ( x ) 对 一 切 x 成 立 . p_{X|A}(x)=p_X(x)对一切x成立. pX∣A(x)=pX(x)对一切x成立.
随机变量之间的相互独立性
- 随机变量之间的相互独立性 与 随机变量和随机事件的相互独立性 的概念是完全相同的。
- 随机变量 X X X和 Y Y Y称为相互独立的随机变量,若它们满足 p X , Y ( x , y ) = p X ( x ) p Y ( y ) 对 一 切 x 和 y 成 立 . p_{X,Y}(x,y)=p_X(x)p_Y(y)对一切x和y成立. pX,Y(x,y)=pX(x)pY(y)对一切x和y成立.这个条件等价于对任何 x x x,随机事件 X = x X=x X=x和 Y = y Y=y Y=y相互独立。
- 最后,由公式 p X , Y ( x , y ) = p X ∣ Y ( x , y ) p Y ( y ) p_{X,Y}(x,y)=p_{X|Y}(x,y)p_Y(y) pX,Y(x,y)=pX∣Y(x,y)pY(y)可知随机变量 X X X和 Y Y Y的相互独立性的条件等价于 p X ∣ Y ( x ∣ y ) = p X ( x ) 对 一 切 x 和 一 切 满 足 p Y ( y ) > 0 的 y 成 立 . p_{X|Y}(x|y)=p_X(x)对一切x和一切满足p_Y(y)>0的y成立. pX∣Y(x∣y)=pX(x)对一切x和一切满足pY(y)>0的y成立.直观上, Y Y Y和 X X X的独立性意味着 Y Y Y的取值不会提供 X X X的取值。
- 关于独立随机变量的性质的小结:
设在某一试验中, A A A是一个事件,满足条件 P ( A ) > 0 P(A)>0 P(A)>0,又设 X X X和 Y Y Y是在同一个试验中的两个随机变量.- 称 X X X为相对于事件 A A A独立,如果满足 p X ∣ A ( x ) = p X ( x ) 对 一 切 x 成 立 , p_{X|A}(x)=p_X(x)对一切x成立, pX∣A(x)=pX(x)对一切x成立,即对一切 x x x,事件 { X = x } \lbrace{X=x}\rbrace {X=x}与 A A A相互独立.
- 称 X X X和 Y Y Y为相互独立的随机变量,如果对一切可能的数对 ( x , y ) (x,y) (x,y),事件 { X = x } \lbrace{X=x}\rbrace {X=x}和 { Y = y } \lbrace{Y=y}\rbrace {Y=y}相互独立,或等价地 p X , Y ( x , y ) = p X ( x ) p Y ( y ) 对 一 切 x 和 y 成 立 . p_{X,Y}(x,y)=p_X(x)p_Y(y)对一切x和y成立. pX,Y(x,y)=pX(x)pY(y)对一切x和y成立.
- 若 X X X和 Y Y Y相互独立,则 E [ X Y ] = E [ X ] E [ Y ] . E[XY]=E[X]E[Y]. E[XY]=E[X]E[Y].进一步地,对于任意函数 g g g和 h h h,随机事件 g ( X ) g(X) g(X)和 h ( Y ) h(Y) h(Y)也是相互独立的,并且 E [ g ( X ) h ( Y ) ] = E [ g ( X ) ] E [ h ( Y ) ] . E[g(X)h(Y)]=E[g(X)]E[h(Y)]. E[g(X)h(Y)]=E[g(X)]E[h(Y)].
- 若 X X X和 Y Y Y相互独立,则 v a r ( X + Y ) = v a r ( X ) + v a r ( Y ) . var(X+Y)=var(X)+var(Y). var(X+Y)=var(X)+var(Y).
几个随机变量的相互独立性
- 我们称随机变量 X , Y , Z X,Y,Z X,Y,Z是三个相互独立的随机变量,如果它们满足 p X , Y , Z ( x , y , z ) = p X ( x ) p Y ( y ) p Z ( z ) 对 一 切 x , y , z 成 立 . p_{X,Y,Z}(x,y,z)=p_X(x)p_Y(y)p_Z(z)对一切x,y,z成立. pX,Y,Z(x,y,z)=pX(x)pY(y)pZ(z)对一切x,y,z成立.
- 设 X , Y , Z X,Y,Z X,Y,Z是三个相互独立的随机变量,则任何形如 f ( X ) , g ( Y ) , h ( Z ) f(X),g(Y),h(Z) f(X),g(Y),h(Z)的三个随机变量也是相互独立的。
- 任何两个随机变量 g ( X , Y ) , h ( Z ) g(X,Y),h(Z) g(X,Y),h(Z)也是相互独立的,但是形如 g ( X , Y ) , h ( Y , Z ) g(X,Y),h(Y,Z) g(X,Y),h(Y,Z)的两个随机变量通常不是相互独立的,因它们受公共的随机变量 Y Y Y的影响。
若干个相互独立的随机变量的和的方差
- 设 X 1 , ⋯ , X n X_1,\cdots,X_n X1,⋯,Xn为相互独立的随机变量序列,则 v a r ( X 1 + ⋯ + X n ) = v a r ( X 1 ) + ⋯ + v a r ( X n ) . var(X_1+\cdots+X_n)=var(X_1)+\cdots +var(X_n). var(X1+⋯+Xn)=var(X1)+⋯+var(Xn).