1.随机变量
随机变量(random variable) 表示随机试验各种结果的实值单值函数。随机事件不论与数量是否直接有关,都可以数量化,即都能用数量化的方式表达。
随机事件数量化的好处是可以用数学分析的方法来研究随机现象。例如某一时间内公共汽车站等车乘客人数,电话交换台在一定时间内收到的呼叫次数,灯泡的寿命等等,都是随机变量的实例。
我们可以通过随机变量的概率分布、概率(密度)函数和概率分布函数来研究随机变量的分布特征。
随机变量的概率分布、概率(密度)函数和概率分布函数请见:【数学基础】第八课:概率分布。
除此之外,随机变量的矩和特征函数是另一种描述随机变量分布特征的方式。我们现在就来了解一下。
2.随机变量的矩
随机变量的矩可以用来描述随机变量的特征。
👉令k为正整数(或为0),a为任何实数,X为随机变量,则期望值 E [ ( X − a ) k ] E[(X-a)^k] E[(X−a)k]叫做随机变量X对a的k阶矩。
👉如果 a = 0 a=0 a=0,则有 E ( X k ) E(X^k) E(Xk),叫做k阶原点矩,记作 v k ( X ) v_k (X) vk(X):
v k ( X ) = E ( X k ) v_k (X)=E(X^k) vk(X)=E(Xk)
显然,一阶原点矩就是数学期望。
其中。 E ( ∣ X ∣ k ) E(\mid X \mid ^k) E(∣X∣k)称为k阶绝对原点矩。
👉设随机变量X的函数 [ X − E ( X ) ] k , ( k = 1 , 2 , . . . ) [X-E(X)]^k,(k=1,2,...) [X−E(X)]k,(k=1,2,...)的数学期望存在,则称 E { [ X − E ( X ) ] k } E\{[X-E(X)]^k \} E{[X−E(X)]k}为X的k阶中心距,记作 μ k ( X ) \mu _k(X) μk(X):
μ k ( X ) = E { [ X − E ( X ) ] k } \mu _k (X)=E\{[X-E(X)]^k \} μk(X)=E{[X−E(X)]k}
显然,一阶中心距恒等于零,二阶中心距就是方差。
其中, E { ∣ X − E ( X ) ∣ k } E\{\mid X-E(X) \mid ^k \} E{∣X−E(X)∣k}称为k阶绝对中心距。
👉原点矩和中心距的关系:
- μ 2 = v 2 − v 1 2 \mu_2=v_2-v_1^2 μ2=v2−v12
- μ 3 = v 3 − 3 v 1 v 2 + 2 v 1 3 \mu_3=v_3-3v_1v_2+2v_1^3 μ3=v3−3v1v2+2v13
- …
2.1.切比雪夫不等式
期望和方差是如何描述随机变量的呢?我们可以通过切比雪夫不等式来说明。
👉切比雪夫不等式: 设X为随机变量,期望值为 μ \mu μ,标准差为 σ \sigma σ,对于任何实数 k > 0 k>0 k>0:
P ( ∣ X − μ ∣ ⩾ k σ ) ⩽ 1 k 2 P(\mid X - \mu \mid \geqslant k \sigma) \leqslant \frac{1}{k^2} P(∣X−μ∣⩾kσ)⩽k21
切比雪夫不等式对随机变量X的分散程度提供了一个定量的估计。
2.1.1.切比雪夫不等式的证明
P ( ∣ X − μ ∣ ⩾ k σ ) = ∫ ∣ X − μ ∣ ⩾ k σ p ( x ) d x = ∫ ∣ X − μ ∣ ⩾ k σ ( x − μ ) 2 ( x − μ ) 2 p ( x ) d x ⩽ ∫ ∣ X − μ ∣ ⩾ k σ ( x − μ ) 2 k 2 σ 2 p ( x ) d x = 1 k 2 σ 2 ∫ ∣ X − μ ∣ ⩾ k σ ( x − μ ) 2 p ( x ) d x ⩽ 1 k 2 σ 2 ∫ − ∞ ∞ ( x − μ ) 2 p ( x ) d x = σ 2 k 2 σ 2 = 1 k 2 \begin{align*} P(\mid X - \mu \mid \geqslant k \sigma ) & = \int_{\mid X - \mu \mid \geqslant k \sigma} p(x)dx \tag{1} \\ & = \int_{\mid X - \mu \mid \geqslant k \sigma} \frac{(x-\mu)^2}{(x-\mu)^2} p(x)dx \tag{2} \\ & \leqslant \int_{\mid X - \mu \mid \geqslant k \sigma} \frac{(x-\mu)^2}{k^2 \sigma ^2} p(x)dx \tag{3} \\ & = \frac{1}{k^2 \sigma^2} \int_{\mid X - \mu \mid \geqslant k \sigma} (x-\mu)^2 p(x)dx \tag{4} \\& \leqslant \frac{1}{k^2 \sigma^2} \int_{-\infty}^{\infty} (x-\mu)^2 p(x)dx \tag{5} \\&= \frac{\sigma^2}{k^2 \sigma ^2} \\&= \frac{1}{k^2} \end{align*} P(∣X−μ∣⩾kσ)=∫∣X−μ∣⩾kσp(x)dx=∫∣X−μ∣⩾kσ(x−μ)2(x−μ)2p(x)dx⩽∫∣X−μ∣⩾kσk2σ2(x−μ)2p(x)dx=k2σ21∫∣X−μ∣⩾kσ(x−μ)2p(x)dx⩽k2σ21∫−∞∞(x−μ)2p(x)dx=k2σ2σ2=k21(1)(2)(3)(4)(5)
- 式(1)可以看作用概率密度函数的积分表示概率分布函数。
- 式(3)是因为有 ∣ X − μ ∣ ⩾ k σ \mid X - \mu \mid \geqslant k \sigma ∣X−μ∣⩾kσ。
- 式(4)中把常数 1 k 2 σ 2 \frac{1}{k^2 \sigma^2} k2σ21提出去。
- 式(5)中 ∫ − ∞ ∞ ( x − μ ) 2 p ( x ) d x \int_{-\infty}^{\infty} (x-\mu)^2 p(x)dx ∫−∞∞(x−μ)2p(x)dx即为随机变量X的二阶中心距,即方差,也就是 σ 2 \sigma ^2 σ2。
3.随机变量的特征函数
随机变量X的特征函数定义为:
φ X ( t ) = E [ e i t X ] (3.1) \varphi _X(t)=E[e^{itX}] \tag{3.1} φX(t)=E[eitX](3.1)
其中t是一个实数,i是虚数单位(即 i = − 1 i=\sqrt{-1} i=−1),E表示期望值。
虚数 i n i^n in具有周期性,且最小正周期是4:
- i 4 n = 1 i^{4n}=1 i4n=1
- i 4 n + 1 = i i^{4n+1}=i i4n+1=i
- i 4 n + 2 = − 1 i^{4n+2}=-1 i4n+2=−1
- i 4 n + 3 = − i i^{4n+3}=-i i4n+3=−i
这么定义的原因是为什么呢?首先我们来看下 e i t X e^{itX} eitX在点 x 0 = 0 x_0=0 x0=0处的泰勒级数为(即麦克劳伦公式):
e i t X = 1 + i t X 1 − t 2 X 2 2 ! + ⋯ + ( i t ) n X n n ! (3.2) e^{itX}=1+\frac{itX}{1}-\frac{t^2X^2}{2!}+\cdots + \frac{(it)^nX^n}{n!} \tag{3.2} eitX=1+1itX−2!t2X2+⋯+n!(it)nXn(3.2)
虚数求导和实数是一样的,把i看成一个实数即可。例如: ( e i t X ) ′ = i t e i t X (e^{itX})'=ite^{itX} (eitX)′=iteitX。
将式(3.2)代入式(3.1)中:
φ X ( t ) = E [ e i t X ] = E ( 1 + i t X 1 − t 2 X 2 2 ! + ⋯ + ( i t ) n X n n ! ) = 1 + i t E ( X ) 1 − t 2 E ( X 2 ) 2 ! + ⋯ + ( i t ) n E ( X n ) n ! = ∑ n = 0 ∞ E ( X n ) n ! ( i t ) n \begin{align*} \varphi _X(t) &= E[e^{itX}] \\&= E(1+\frac{itX}{1}-\frac{t^2X^2}{2!}+\cdots + \frac{(it)^nX^n}{n!}) \\&= 1+\frac{itE(X)}{1} - \frac{t^2E(X^2)}{2!} + \cdots + \frac{(it)^n E(X^n)}{n!} \\&= \sum_{n=0}^{\infty} \frac{E(X^n)}{n!}(it)^n \end{align*} φX(t)=E[eitX]=E(1+1itX−2!t2X2+⋯+n!(it)nXn)=1+1itE(X)−2!t2E(X2)+⋯+n!(it)nE(Xn)=n=0∑∞n!E(Xn)(it)n
可以看出,特征函数包含了随机变量的所有矩,即包含了随机变量的所有特征。
参照第2部分中k阶矩的定义,我们这里只是以 a = 0 a=0 a=0为例。
那么我们为什么需要特征函数呢?
因为在实际应用中,逐个测量事件空间中的各事件发生的概率(或者概率分布函数)是极端困难的,相反对大多数分布而言,矩(期望、方差以及各种高阶矩)往往是容易被测量的。
⚠️任何随机变量无论它的矩是否存在,其特征函数是一定存在的。
‼️在概率论中,任何随机变量的特征函数完全定义了它的分布。
‼️关于特征函数的重要性质:
- 如果X,Y是两个独立随机变量,那么 φ X + Y ( t ) = φ X ( t ) φ Y ( t ) \varphi_{X+Y}(t)=\varphi_X(t) \varphi_Y(t) φX+Y(t)=φX(t)φY(t)。
- 如果 φ X ( t ) = φ Y ( t ) \varphi_X(t)= \varphi_Y(t) φX(t)=φY(t),那么X,Y服从同一个分布。
此外,我们可以利用特征函数推导出随机变量非常重要并且常用的两个定理:大数定律和中心极限定理。接下来我们来详细了解一下这两个定理。
4.大数定律
X是随机变量, μ \mu μ是X的期望, σ \sigma σ是X的方差。 { X k } k = 1 ∞ \{X_k \}_{k=1}^{\infty} {Xk}k=1∞是服从X的独立同分布随机变量,那么 X ˉ n = ∑ k = 1 n X k n \bar X_n=\frac{\sum_{k=1}^n X_k}{n} Xˉn=n∑k=1nXk依概率收敛于 μ \mu μ。也就是说对于任何 ϵ > 0 \epsilon >0 ϵ>0有:
lim n → ∞ P ( ∣ X ˉ n − μ ∣ > ϵ ) = 0 \lim_{n \to \infty} P(\mid \bar X_n - \mu \mid > \epsilon)=0 n→∞limP(∣Xˉn−μ∣>ϵ)=0
‼️大数定律说明了足够大的样本能几乎肯定地反映出总体的真实组成。
大数定律的一个意义就在于当我们不知道随机变量总体的矩的时候,可以通过独立重复抽样,用样本的矩去近似总体的矩。
5.中心极限定理
通过大数定律我们知道了 X ˉ n \bar X_n Xˉn是趋近于 μ \mu μ的,那么是以什么方式怎么趋近的呢?我们可以用中心极限定理来说明。
X是随机变量, { X k } k = 1 ∞ \{X_k \}_{k=1}^{\infty} {Xk}k=1∞是服从X的独立同分布随机变量,那么:
Z n = n σ ( X ˉ n − μ ) Z_n=\frac{\sqrt{n}}{\sigma}(\bar X_n-\mu) Zn=σn(Xˉn−μ)
依分布收敛于均值为 μ \mu μ,方差为 σ 2 n \frac{\sigma^2}{n} nσ2的正态分布。
‼️大量相互独立的随机变量,其均值的分布以正态分布为极限。无论是什么分布的随机变量,都满足这个定理。
这也是我们在不知道随机变量的分布时,经常假设其为正态分布的原因。