随机变量: 随机变量的定义
离散型随机变量
1 离散型随机变量的定义
若一个随机变量最多有可数的多个可能取值,则称这个随机变量为离散型的。例如,对于抛两枚骰子的试验,令随机变量为两枚骰子点数之和,则随机变量可取的值即为2到12的每一个可取整数值。对于一个离散型随机变量
X
X
X,定义
X
X
X的概率分布列(probability mass function,PMF,又叫概率分布律、概率质量函数)
p
(
a
)
p(a)
p(a)为:
p
(
a
)
=
P
{
X
=
a
}
p(a)=P\{X=a\}
p(a)=P{X=a}
p
(
a
)
p(a)
p(a)最多在可数个
a
a
a上取正值,即,如果随机变量
X
X
X的可取值为
x
1
,
x
2
,
⋯
x_1,x_2,\cdots
x1,x2,⋯,那么对于每一个
x
i
,
i
=
1
,
2
,
⋯
x_i,i=1,2,\cdots
xi,i=1,2,⋯都有:
p
(
x
i
)
≥
0
p(x_i) \ge 0
p(xi)≥0
对于其他的
x
x
x取值则有:
p
(
x
)
=
0
p(x) = 0
p(x)=0
并且对于所有的
X
X
X的可取值有:
∑
i
=
1
∞
p
(
x
i
)
=
1
\sum_{i=1}^\infty p(x_i) =1
i=1∑∞p(xi)=1
2 离散型随机变量的分布函数
离散型随机变量的累积分布函数(分布函数)
F
(
a
)
F(a)
F(a)可通过
p
(
a
)
p(a)
p(a)进行计算,根据分布函数的定义可知:
F
(
a
)
=
∑
x
≤
a
p
(
x
)
F(a)=\sum_{x\le a}p(x)
F(a)=x≤a∑p(x)
若
X
X
X是一个离散型随机变量,其可能的取值为
x
1
,
x
2
,
⋯
x_1,x_2,\cdots
x1,x2,⋯,其中
x
1
<
x
2
<
x
3
<
⋯
x_1 \lt x_2 \lt x_3 \lt \cdots
x1<x2<x3<⋯,则它的分布函数是一个阶梯函数,即在区间
(
x
i
−
1
,
x
i
)
(x_{i-1}, x_i)
(xi−1,xi)上取常数值,且在
x
i
x_i
xi处有跳跃,跳跃值为
p
(
x
i
)
p(x_i)
p(xi)。
3 期望
概率论中一个非常重要的概念就是随机变量的期望,数学期望(或均值,亦简称期望)是试验中每次可能结果的概率乘以其结果的总和,是最基本的数学特征之一。它反映随机变量平均取值的大小。假设
X
X
X是一个离散型随机变量,其概率分布列为
p
(
x
)
p(x)
p(x),那么
X
X
X的期望或期望值记为
E
[
X
]
E[X]
E[X],定义如下:
E
[
X
]
=
∑
x
:
p
(
x
)
>
0
x
p
(
x
)
E[X]=\sum_{x:p(x)\gt 0}xp(x)
E[X]=x:p(x)>0∑xp(x)
X
X
X的期望值就是
X
X
X所有可能取值的一个加权平均,每个值的权重就是
X
X
X取该值的概率。需要注意的是,期望值并不一定等同于常识中的“期望”——“期望值”也许与每一个结果都不相等。期望值是该变量输出值的平均数。期望值并不一定包含于变量的输出值集合里。
4 随机变量函数的期望
假设已知一个离散型随机变量
X
X
X的分布列,现在要计算关于
X
X
X的函数的期望,例如
g
(
X
)
g(X)
g(X)的期望。
g
(
X
)
g(X)
g(X)本身也是一个离散型随机变量,它就会有自己的分布列,根据
X
X
X的分布列和函数
g
(
X
)
g(X)
g(X)的规则就可以轻易得到
g
(
X
)
g(X)
g(X)的分布列,然后再按照期望的定义便可计算出
E
[
g
(
X
)
]
E[g(X)]
E[g(X)]。
现在换一种理解方式,当
X
=
x
X=x
X=x时,
g
(
X
)
=
g
(
x
)
g(X)=g(x)
g(X)=g(x),可以很合理地认为
E
[
g
(
X
)
]
E[g(X)]
E[g(X)]就是
g
(
x
)
g(x)
g(x)的一个加权平均,其权重为
X
=
x
X=x
X=x的概率,这样理解的话,就会有以下结论:如果
X
X
X是一个离散型随机变量,其可能取值为
x
i
,
i
≥
1
x_i,i\ge 1
xi,i≥1,相应的取值概率为
p
(
x
i
)
p(x_i)
p(xi),那么对于任一实值函数
g
g
g,都有:
E
[
g
(
X
)
]
=
∑
i
g
(
x
i
)
p
(
x
i
)
E[g(X)]=\sum_{i}g(x_i)p(x_i)
E[g(X)]=i∑g(xi)p(xi)
根据这个结论还可以得到一个简单推论:
E
[
a
X
+
b
]
=
a
E
[
X
]
+
b
E[aX+b]=aE[X]+b
E[aX+b]=aE[X]+b
随机变量
X
X
X的期望
E
[
X
]
E[X]
E[X],也称为
X
X
X的均值(mean)或者一阶矩(first moment)。
E
[
X
n
]
(
n
≥
1
)
E[X^n](n \ge 1)
E[Xn](n≥1)称为
X
X
X的
n
n
n阶矩。
5 方差
给定一个随机变量
X
X
X及其分布函数
F
F
F,假如我们想要了解
F
F
F的本质属性,定义合适的度量是及其有用的。期望是一个比较好的度量,它给出了
X
X
X每个可能取值的加权平均,但是它无法提供关于取值相对于平均值的偏离或离散程度的信息。一种合理
X
X
X取值离散程度的度量方法是考虑
X
X
X与
E
[
X
]
E[X]
E[X]的平均距离,如果
E
[
X
]
=
μ
E[X]=\mu
E[X]=μ,则考虑
E
[
∣
X
−
μ
∣
]
E[|X-\mu|]
E[∣X−μ∣],但是在数学上处理这种度量是不方便的,更容易处理的度量通常考虑
X
X
X与其均值距离的平方的期望,因此就有了方差的定义:如果随机变量
X
X
X的期望为
μ
\mu
μ,那么
X
X
X的方差记为
V
a
r
(
X
)
Var(X)
Var(X),其定义为:
V
a
r
(
X
)
=
E
[
(
X
−
μ
)
2
]
Var(X)=E[(X-\mu)^2]
Var(X)=E[(X−μ)2]
根据前几节的结论可以非常容易地推出方差的另一表达式:
V
a
r
(
X
)
=
E
[
X
2
]
−
(
E
[
X
]
)
2
Var(X)=E[X^2]-(E[X])^2
Var(X)=E[X2]−(E[X])2
在实际应用中,该式是计算方差最简便的方法。另外对于常数
a
a
a和
b
b
b,有如下恒等式:
V
a
r
(
a
X
+
b
)
=
a
2
V
a
r
(
X
)
Var(aX+b)=a^2Var(X)
Var(aX+b)=a2Var(X)
该式的推导也十分简单,依旧根据已知的结论进行推导即可。
参考资料:
《概率论基础教程》Sheldon M.Ross
百度百科:数学期望