为什么两个独立随机变量的和的概率密度函数是它们各自概率密度函数的卷积,而不是简单的和?
1. 概率密度函数的本质
概率密度函数(PDF)描述了一个随机变量在每个值上的“概率密度”。例如,某个随机变量 X X X 的概率密度函数 f X ( x ) f_X(x) fX(x) 告诉我们 X X X 取某个特定值 x x x 的可能性“密度”。注意,这并不是直接的“概率”,而是“概率密度”,通过积分才能得到概率。
当我们讨论两个独立随机变量 X X X 和 Y Y Y 的和 Z = X + Y Z = X + Y Z=X+Y 时,我们的目标是找到 Z Z Z 的概率密度函数 f Z ( z ) f_Z(z) fZ(z),即在 Z Z Z 取值为 z z z 时,出现这个值的可能性有多大。
2. 概率密度与卷积的关系
当我们计算两个随机变量 X X X 和 Y Y Y 的和 Z = X + Y Z = X + Y Z=X+Y 的概率密度时,我们实际上是在问:
“有多少种组合可以使得 X + Y = z X + Y = z X+Y=z?”
为了回答这个问题,我们需要考虑所有可能的 X X X 和 Y Y Y 的值对,这些值对满足 X = x X = x X=x 和 Y = z − x Y = z - x Y=z−x。具体来说,我们需要考虑所有的 x x x 和 z − x z - x z−x 的组合,这些组合的联合概率密度给出了 Z = z Z = z Z=z 时的概率密度值。
3. 卷积解释为什么是“和”的概率密度
当 Z = X + Y Z = X + Y Z=X+Y 时,我们要计算的是 Z Z Z 取值为 z z z 的概率密度。假设 X = x X = x X=x,那么 Y = z − x Y = z - x Y=z−x 才能使得 X + Y = z X + Y = z X+Y=z 成立。由于 X X X 和 Y Y Y 是独立的,两个事件 X = x X = x X=x 和 Y = z − x Y = z - x Y=z−x 的联合概率密度就是这两个独立事件的概率密度的乘积,也就是 f X ( x ) ⋅ f Y ( z − x ) f_X(x) \cdot f_Y(z - x) fX(x)⋅fY(z−x)。
因此,为了找到 Z = z Z = z Z=z 的概率密度,我们需要对所有可能的 x x x 进行积分,从而计算所有可能的组合的总概率密度。这就得到了卷积公式:
f Z ( z ) = ∫ − ∞ + ∞ f X ( x ) f Y ( z − x ) d x f_Z(z) = \int_{-\infty}^{+\infty} f_X(x) f_Y(z - x) dx fZ(z)=∫−∞+∞fX(x)fY(z−x)dx
这个公式表达了对于每个 z z z,我们需要考虑所有可能的 x x x 和 z − x z - x z−x 的组合,并对它们的概率密度进行加总。
4. 为什么不是概率密度的“和”?
如果我们简单地把两个概率密度函数相加,即:
f Z ( z ) = f X ( z ) + f Y ( z ) f_Z(z) = f_X(z) + f_Y(z) fZ(z)=fX(z)+fY(z)
那么这个公式的含义是,我们假设 Z Z Z 直接由两个独立随机变量的“相同值”相加而得,即我们仅考虑了 Z = X Z = X Z=X 和 Z = Y Z = Y Z=Y 发生在同一位置的可能性。这种情况下,两个随机变量的和的概率密度函数并不能正确反映出它们“和”的结果。
举个例子,假设 X X X 和 Y Y Y 是两个独立的均匀分布随机变量,定义域是 [ 0 , 1 ] [0,1] [0,1]。如果我们用“和”来计算它们的概率密度函数的话,显然不合逻辑,因为两个均匀分布的随机变量的和的范围是 [ 0 , 2 ] [0,2] [0,2],而不是单独的 [ 0 , 1 ] [0,1] [0,1] 区间内的叠加。
卷积运算正确地考虑了每一个可能的组合 X = x X = x X=x 和 Y = z − x Y = z - x Y=z−x,反映了所有可能的值如何通过加和得到新的随机变量的值。这就是为什么我们要用卷积,而不是简单地把两个概率密度函数相加。
5. 一个更具体的例子
假设我们有两个独立的随机变量 X X X 和 Y Y Y,它们都服从均匀分布在区间 [ 0 , 1 ] [0, 1] [0,1] 上,即 f X ( x ) = f Y ( y ) = 1 f_X(x) = f_Y(y) = 1 fX(x)=fY(y)=1 在 [ 0 , 1 ] [0, 1] [0,1] 上。
如果我们简单地把 f X ( x ) f_X(x) fX(x) 和 f Y ( y ) f_Y(y) fY(y) 相加:
f Z ( z ) = f X ( z ) + f Y ( z ) f_Z(z) = f_X(z) + f_Y(z) fZ(z)=fX(z)+fY(z)
我们得到的 f Z ( z ) f_Z(z) fZ(z) 只是在 [ 0 , 1 ] [0, 1] [0,1] 区间内的叠加,结果完全错误。因为 Z = X + Y Z = X + Y Z=X+Y 的值范围应该是 [ 0 , 2 ] [0, 2] [0,2],我们需要考虑所有可能的组合,才能得到正确的概率密度。
如果我们使用卷积:
f Z ( z ) = ∫ − ∞ + ∞ f X ( x ) f Y ( z − x ) d x f_Z(z) = \int_{-\infty}^{+\infty} f_X(x) f_Y(z - x) dx fZ(z)=∫−∞+∞fX(x)fY(z−x)dx
当 0 ≤ z ≤ 1 0 \leq z \leq 1 0≤z≤1 时,积分范围是 [ 0 , z ] [0, z] [0,z],结果是 f Z ( z ) = z f_Z(z) = z fZ(z)=z。
当 1 ≤ z ≤ 2 1 \leq z \leq 2 1≤z≤2 时,积分范围是 [ z − 1 , 1 ] [z - 1, 1] [z−1,1],结果是 f Z ( z ) = 2 − z f_Z(z) = 2 - z fZ(z)=2−z。
这给出了正确的概率密度函数:
f Z ( z ) = { z if 0 ≤ z ≤ 1 2 − z if 1 ≤ z ≤ 2 f_Z(z) = \begin{cases} z & \text{if } 0 \leq z \leq 1 \\ 2 - z & \text{if } 1 \leq z \leq 2 \end{cases} fZ(z)={z2−zif 0≤z≤1if 1≤z≤2
这是两个独立均匀分布相加后的分布,称为三角形分布。
6. 总结
- 两个独立随机变量的和的概率密度函数等于它们各自概率密度函数的卷积,因为卷积考虑了所有可能的组合情况,而不是简单地叠加两个相同位置的概率密度。
- 卷积反映了每个可能的 X = x X = x X=x 和 Y = z − x Y = z - x Y=z−x 的组合,正是这种“组合”构成了随机变量和的分布。
卷积是描述两个随机变量和的准确方法,因为它反映了多种可能的情况,而简单相加无法正确描述这种叠加关系。
多个随机变量(RVs,Random Variables)的联合概率、边际概率密度函数、联合矩(joint moments)以及随机变量之间的相关性和独立性。
1. 联合概率密度函数(Joint Probability Density Function)
当我们有两个随机变量
X
X
X 和
Y
Y
Y 时,我们可以通过它们的联合概率密度函数(joint PDF)来描述它们的联合分布。图中公式(1.18)表示随机变量
X
X
X 和
Y
Y
Y 在某个区域
F
\mathcal{F}
F 中的联合概率:
P
(
X
and
Y
⊂
F
)
=
∫
∫
F
p
X
,
Y
(
x
,
y
)
d
x
d
y
P(X \text{ and } Y \subset \mathcal{F}) = \int \int_{\mathcal{F}} p_{X,Y}(x, y) \, dx \, dy
P(X and Y⊂F)=∫∫FpX,Y(x,y)dxdy
其中:
- p X , Y ( x , y ) p_{X,Y}(x, y) pX,Y(x,y) 是 X X X 和 Y Y Y 的联合概率密度函数。
- F \mathcal{F} F 表示一个区域,可以是如 X 2 + Y 2 < r 2 X^2 + Y^2 < r^2 X2+Y2<r2 这样的条件,表示随机变量在特定区域中的概率。
2. 边际概率密度函数(Marginal Probability Density Function)
要从联合概率密度函数中获取单个随机变量的分布,我们可以通过边际化(marginalization)操作。公式(1.19)表示如何通过联合概率密度函数
p
X
,
Y
(
x
,
y
)
p_{X,Y}(x,y)
pX,Y(x,y) 获得随机变量
X
X
X 的边际概率密度函数
p
X
(
x
)
p_X(x)
pX(x):
p
X
(
x
)
=
∫
−
∞
∞
p
X
,
Y
(
x
,
y
)
d
y
p_X(x) = \int_{-\infty}^{\infty} p_{X,Y}(x, y) \, dy
pX(x)=∫−∞∞pX,Y(x,y)dy
这意味着,我们通过对
Y
Y
Y 积分,忽略
Y
Y
Y 的影响,从而获得
X
X
X 的分布。
3. 联合矩(Joint Moments)
对于随机变量
X
X
X 和
Y
Y
Y,我们可以计算它们的联合矩,如图中公式(1.20)所示:
E
X
,
Y
(
X
n
Y
m
)
=
∫
−
∞
∞
∫
−
∞
∞
x
n
y
m
p
X
,
Y
(
x
,
y
)
d
x
d
y
E_{X,Y}(X^n Y^m) = \int_{-\infty}^{\infty} \int_{-\infty}^{\infty} x^n y^m p_{X,Y}(x,y) \, dx \, dy
EX,Y(XnYm)=∫−∞∞∫−∞∞xnympX,Y(x,y)dxdy
其中:
- X n Y m X^n Y^m XnYm 是 X X X 和 Y Y Y 的不同幂次。
- 通过计算联合矩,我们可以分析两个随机变量的交互特性,比如它们之间的相关性和联合分布。
4. 相关性与独立性
图中的重点是描述随机变量之间的相关性和独立性的区别:
-
独立性:随机变量 X X X 和 Y Y Y 彼此独立,当且仅当它们的联合概率密度函数是它们各自边际概率密度函数的乘积,即:
p X , Y ( x , y ) = p X ( x ) p Y ( y ) p_{X,Y}(x, y) = p_X(x) p_Y(y) pX,Y(x,y)=pX(x)pY(y)
这意味着, X X X 的分布和 Y Y Y 的分布之间没有任何联系。 -
不相关性(Uncorrelated):两个随机变量不相关,当且仅当它们的乘积的期望值等于它们期望值的乘积,即:
E ( X Y ) = E ( X ) E ( Y ) E(XY) = E(X)E(Y) E(XY)=E(X)E(Y)
也可以表示为:
E ( ( X − E ( X ) ) ( Y − E ( Y ) ) ) = 0 E \left( (X - E(X))(Y - E(Y)) \right) = 0 E((X−E(X))(Y−E(Y)))=0
不相关性意味着 X X X 和 Y Y Y 的线性关系为零,但它们不一定是完全独立的。
5. 总结
- 联合概率密度函数(Joint PDF) 描述了两个随机变量联合发生的概率分布。
- 边际概率密度函数(Marginal PDF) 是通过联合分布对其中一个变量积分得到的。
- 联合矩(Joint Moments) 用于分析多个随机变量的交互特性。
- 独立性和不相关性的区别在于,独立性意味着没有任何关联,而不相关性仅表示线性关系为零,但不排除非线性关系。
通过这些概念,我们可以更深入地分析多个随机变量之间的关系以及它们的概率分布特性。
不相关性和不独立性的区别
1. 独立性(Independence)
独立性是一个更强的条件,它意味着两个随机变量之间没有任何关联,即一个随机变量的取值不会影响另一个随机变量的取值。具体来说:
1.1 独立性的数学定义
两个随机变量
X
X
X 和
Y
Y
Y 是独立的,当且仅当它们的**联合概率密度函数(Joint PDF)可以表示为它们各自边际概率密度函数(Marginal PDF)**的乘积:
p
X
,
Y
(
x
,
y
)
=
p
X
(
x
)
⋅
p
Y
(
y
)
p_{X,Y}(x, y) = p_X(x) \cdot p_Y(y)
pX,Y(x,y)=pX(x)⋅pY(y)
这意味着:
- 事件 X = x X = x X=x 和事件 Y = y Y = y Y=y 的发生概率是互不影响的。
- 随机变量 X X X 和 Y Y Y 是完全不相关的,不仅仅在线性关系上不相关,而是在任何形式的关系上都不相关。
1.2 独立性的性质
- 条件概率:如果
X
X
X 和
Y
Y
Y 独立,则事件
X
X
X 发生的概率与事件
Y
Y
Y 是否发生无关:
P ( X ∣ Y ) = P ( X ) P(X|Y) = P(X) P(X∣Y)=P(X) - 期望值:如果
X
X
X 和
Y
Y
Y 独立,则它们乘积的期望值等于各自期望值的乘积:
E [ X Y ] = E [ X ] ⋅ E [ Y ] E[XY] = E[X] \cdot E[Y] E[XY]=E[X]⋅E[Y]
1.3 独立性的直观理解
独立性意味着两个随机变量完全没有关系。例如:
- 抛硬币和掷骰子是两个独立的随机实验。抛硬币的结果(正面或反面)不会影响骰子掷出的数字,反之亦然。
- 在概率上,这意味着硬币的正面概率和骰子掷出某个数字的概率是互相独立的。
2. 不相关性(Uncorrelated)
不相关性是一个更弱的条件,它仅表示两个随机变量之间的线性关系为零。这意味着随机变量之间可能没有线性关联,但它们可能仍然存在非线性关联。
2.1 不相关性的数学定义
两个随机变量
X
X
X 和
Y
Y
Y 是不相关的,当且仅当它们的乘积的期望值等于它们各自期望值的乘积:
E
[
X
Y
]
=
E
[
X
]
⋅
E
[
Y
]
E[XY] = E[X] \cdot E[Y]
E[XY]=E[X]⋅E[Y]
或者可以表示为**协方差(Covariance)**为零:
Cov
(
X
,
Y
)
=
E
[
(
X
−
E
[
X
]
)
(
Y
−
E
[
Y
]
)
]
=
0
\text{Cov}(X,Y) = E[(X - E[X])(Y - E[Y])] = 0
Cov(X,Y)=E[(X−E[X])(Y−E[Y])]=0
这意味着 X X X 和 Y Y Y 之间没有线性关系。
2.2 不相关性的性质
- 不相关性仅表示两个随机变量之间没有线性关系。即它们的变化没有线性相关性,协方差为零。
- 不相关性并不排除非线性关系的存在,两个随机变量之间可能仍存在某种非线性关联。
2.3 不相关性的直观理解
不相关性表示随机变量在线性层面上是没有关联的。例如:
- 两个随机变量可能不相关(线性关系为零),但它们可能通过某种非线性关系相关联。例如,如果 Y = X 2 Y = X^2 Y=X2,那么 X X X 和 Y Y Y 是不相关的(因为协方差为零),但它们显然是非线性相关的。
3. 独立性 vs 不相关性:区别
3.1 独立性:
- 表示两个随机变量在任何形式下都没有关联。
- 独立性是一个强条件,意味着完全没有关系,无论是线性还是非线性关系。
- 如果两个随机变量是独立的,它们一定是不相关的(协方差为零)。
3.2 不相关性:
- 表示两个随机变量在线性关系上没有关联(协方差为零)。
- 不相关性是一个弱条件,它只排除了线性关系,但不能排除非线性关系。
- 两个不相关的随机变量不一定是独立的,它们可能通过非线性方式相关联。
4. 例子:不相关但不独立
一个经典的例子是当 Y = X 2 Y = X^2 Y=X2 时,随机变量 X X X 和 Y Y Y 是不相关的,但它们显然不是独立的。这是因为:
- 不相关性:在 Y = X 2 Y = X^2 Y=X2 的情况下, E [ X Y ] = E [ X ⋅ X 2 ] E[XY] = E[X \cdot X^2] E[XY]=E[X⋅X2] 并不一定等于 E [ X ] ⋅ E [ X 2 ] E[X] \cdot E[X^2] E[X]⋅E[X2],但通过计算协方差,我们发现 X X X 和 Y Y Y 的协方差为零,这说明它们在线性关系上不相关。
- 非独立性:尽管它们线性不相关, Y Y Y 完全依赖于 X X X 的平方,因此 X X X 和 Y Y Y 并不是独立的随机变量。
5. 总结
- 独立性:表示两个随机变量之间没有任何关系,包括线性和非线性关系。如果 X X X 和 Y Y Y 独立,那么它们一定是不相关的。
- 不相关性:表示两个随机变量之间没有线性关系(协方差为零),但它们可能仍然存在非线性关系。两个不相关的随机变量不一定是独立的。
总的来说,独立性是一个比不相关性更强的条件,独立的随机变量一定是不相关的,但不相关的随机变量不一定是独立的。