数字特征和特征函数

概率论第四章复习。

数学期望

含义

时间平均: a 1 + ⋯ + a n n \dfrac{a_1+\cdots+a_n}{n} na1++an,独立重复试验,n次观测值的算术平均。

空间平均:在空间的不同位置 x i x_i xi,在这个位置的概率or权重: p i p_i pi,期望体现为 ∑ k x k p k \sum_kx_kp_k kxkpk.

这两种含义是相等的:
1 n ( a 1 + ⋯ + a n ) = ∑ k x k p k \dfrac{1}n(a_1+\cdots+a_n) = \sum_kx_kp_k n1(a1++an)=kxkpk

离散型

定义

定义4.1.1 若 ∑ k ∣ x k ∣ p k < ∞ \sum_k|x_k|p_k<\infty kxkpk<,则称 ∑ k x k p k \sum_kx_kp_k kxkpk X X X的数学期望,记为 E X EX EX.

如果级数不绝对收敛,都称期望不存在。不过可以推广定义:如果级数的正部和负部不全为无穷,则可以定义广义的数学期望。这样保证了期望不是一个不定式(无穷-无穷)。

期望本质上是一个分布的数字特征,从离散型的角度来看,分布列确定了,期望就是确定的。

举例
Bernoulli分布
E 1 A = P ( A ) E_{1_A}=P(A) E1A=P(A).

这边考虑同分布的随机变量:示性函数。

Possion分布

首先说明,泊松分布的期望一定是有良定的,因为随机变量取非负整数值,负部级数为0。
E X = e − λ ∑ k = 1 ∞ k λ k k ! = λ e − λ ∑ k = 1 ∞ λ k − 1 ( k − 1 ) ! = λ EX = e^{-\lambda}\sum_{k=1}^\infty k\dfrac{\lambda^k}{k!} = \lambda e^{-\lambda}\sum_{k=1}^\infty\dfrac{\lambda^{k-1}}{(k-1)!}=\lambda EX=eλk=1kk!λk=λeλk=1(k1)!λk1=λ

非负随机变量的期望

引出一个取非负整数值随机变量的期望求法:
E X = ∑ k = 0 ∞ k p k = ∑ k = 1 ∞ ∑ n = 1 k p k = ∑ n = 1 ∞ ∑ k = n ∞ p k = ∑ n = 1 ∞ P ( X ≥ n ) = ∑ n = 0 ∞ P ( X > n ) EX = \sum_{k=0}^\infty kp_k = \sum_{k=1}^\infty\sum_{n=1}^k p_k = \sum_{n=1}^\infty\sum_{k=n}^\infty p_k = \sum_{n=1}^\infty P(X\ge n) =\sum_{n=0}^\infty P(X>n) EX=k=0kpk=k=1n=1kpk=n=1k=npk=n=1P(Xn)=n=0P(X>n)

几何分布

E X = ∑ n = 0 ∞ ( 1 − p ) n = 1 p EX = \sum_{n=0}^\infty (1-p)^n = \frac1p EX=n=0(1p)n=p1

连续型

定义4.1.2 若 ∫ ∣ x ∣ p ( x ) d x < ∞ \int|x|p(x)dx<\infty xp(x)dx<,则称 ∫ x p ( x ) d x \int xp(x)dx xp(x)dx X X X的数学期望,记为 E X . EX. EX.

同样可以引出推广的数学期望。

非负随机变量的期望

先证明一个引理: lim ⁡ x → ∞ x G ( x ) = 0 \lim_{x\to\infty}xG(x)=0 limxxG(x)=0
∫ x ∞ y p ( y ) d y ≥ x ∫ x ∞ p ( y ) d y = x G ( x ) \int_x^\infty yp(y)dy \ge x\int_x^\infty p(y)dy =xG(x) xyp(y)dyxxp(y)dy=xG(x)
由夹逼原理, lim ⁡ x → 0 x G ( x ) = 0 \lim_{x\to0}xG(x)=0 limx0xG(x)=0.

那么
E X = ∫ 0 ∞ x p ( x ) d x = ∫ 0 ∞ x d ( − G ( x ) ) = − x G ( x ) ∣ 0 ∞ + ∫ 0 ∞ G ( x ) d x = ∫ 0 ∞ G ( x ) d x EX = \int_0^\infty xp(x)dx = \int_0^\infty x d(-G(x)) = -xG(x)|_{0}^\infty +\int_0^\infty G(x)dx=\int_0^\infty G(x)dx EX=0xp(x)dx=0xd(G(x))=xG(x)0+0G(x)dx=0G(x)dx

指数分布

X ∼ E x p ( λ ) , X\sim Exp(\lambda), XExp(λ),
E X = ∫ 0 ∞ e − λ x d x = 1 λ EX = \int_0^\infty e^{-\lambda x}dx = \frac1\lambda EX=0eλxdx=λ1

柯西分布

p ( x ) − 1 π 1 x 2 + 1 p(x)-\frac1\pi \frac{1}{x^2+1} p(x)π1x2+11期望不存在。

一般情形

介绍性质。我们直接使用尾分布函数去定义非负随机变量的期望:
E Y = ∫ 0 ∞ G ( x ) d x EY = \int_0^\infty G(x)dx EY=0G(x)dx

定义4.1.3 若 X ≥ 0 X\ge0 X0,称 ∫ 0 ∞ P ( X > x ) d x \int_0^\infty P(X>x)dx 0P(X>x)dx X X X的数学期望,记为 E X EX EX.如果 E X + , E X − EX^+,EX^- EX+,EX不全为无穷,则称 E X : = E X + − E X − EX:=EX^+-EX^- EX:=EX+EX X X X的期望。

如果 X X X有界: P ( ∣ X ∣ ≤ M ) = 1 P(|X|\le M)=1 P(XM)=1,那么期望一定存在(考虑定义)。

期望是分布的数字特征:直接利用尾分布函数。

函数的期望

离散型: E f ( X ) = ∑ k f ( x k ) p k ,   E f ( X → ) = ∑ k f ( x → k ) p k Ef(X) = \sum_k f(x_k)p_k,\ Ef(\overrightarrow X) = \sum_k f(\overrightarrow x_k)p_k Ef(X)=kf(xk)pk, Ef(X )=kf(x k)pk.

连续型: E f ( X ) = ∫ f ( x ) p ( x ) d x , E f ( X → ) = ∫ f ( x → ) p ( x → ) d x → Ef(X) = \int f(x)p(x) dx, Ef(\overrightarrow X) = \int f(\overrightarrow x)p(\overrightarrow x)d\overrightarrow x Ef(X)=f(x)p(x)dx,Ef(X )=f(x )p(x )dx .

数学期望的性质

  1. 由期望的时间平均含义:

    a. X ≡ c \equiv c c,则 E X ≡ C EX\equiv C EXC.

    b. 单调性。 X ≥ Y X\ge Y XY,则 E X ≥ E Y EX\ge EY EXEY.

    c. 线性。 E ( a X ) = a E X , E ( X + Y ) = E ( X ) + E ( Y ) E(aX)=aEX,E(X+Y) = E(X)+E(Y) E(aX)=aEX,E(X+Y)=E(X)+E(Y).

  2. X ≥ 0 , X\ge 0, X0, E X = 0 EX = 0 EX=0,则 X = 0 X = 0 X=0
    0 = E X ≥ E X 1 X > 1 n ≥ 1 n P ( X ≥ 1 n ) , P ( X ≥ 1 n ) ≥ P ( X > 0 ) 0 = EX \ge EX1_{X>\frac1n}\ge \frac1nP(X\ge\frac1n),P(X\ge\frac1n)\ge P(X>0) 0=EXEX1X>n1n1P(Xn1),P(Xn1)P(X>0)

  3. X ≥ 0 , E X < ∞ , X\ge 0,EX<\infty, X0,EX<,
    lim ⁡ x → ∞ x G ( x ) = lim ⁡ x → ∞ E X 1 { X > x } = 0 \lim_{x\to\infty}xG(x) = \lim_{x\to\infty} EX1_{\{X>x\}} = 0 xlimxG(x)=xlimEX1{X>x}=0
    第二个等号:
    E X 1 { X > x } = ∫ 0 ∞ P ( X 1 { X > x } > y ) d y = ∫ 0 ∞ P ( X > x , X > y ) d y = ∫ 0 x P ( X > x ) d y + ∫ x ∞ P ( X > y ) d y → x G ( x ) = 0 EX1_{\{X>x\}} = \int_{0}^\infty P(X1_{\{X>x\}}> y) dy = \int_0^\infty P(X>x,X>y)dy = \int_0^x P(X>x)dy+\int_x^\infty P(X>y)dy \to xG(x)=0 EX1{X>x}=0P(X1{X>x}>y)dy=0P(X>x,X>y)dy=0xP(X>x)dy+xP(X>y)dyxG(x)=0

  4. 相互独立,则 E ( X Y ) = E ( X ) E ( Y ) E(XY) = E(X)E(Y) E(XY)=E(X)E(Y).

    证明很简单,考虑函数 f ( X , Y ) = X Y f(X,Y) = XY f(X,Y)=XY的数学期望。

  5. Jensen不等式:对任意凸函数 f f f,有 E f ( x ) ≥ f ( E X ) . Ef(x)\ge f(EX). Ef(x)f(EX).比如 E ∣ X ∣ ≥ ∣ E X ∣ , E X 2 ≥ ( E X ) 2 E|X|\ge|EX|,EX^2\ge(EX)^2 EXEX,EX2(EX)2.

正态分布的期望

标准正态的期望很简单。由于密度函数是偶函数,所以均值为0.

再次证明一个服从 N ( μ , σ 2 ) N(\mu,\sigma^2) N(μ,σ2)的普通正态变量, X ∗ = X − μ σ X^*=\dfrac{X-\mu}{\sigma} X=σXμ为一个标准正态变量。利用变换公式:
p X ∗ ( y ) = p X ( σ y + μ ) 1 σ = 1 2 π e − y 2 2 p_{X^*}(y) = p_{X}(\sigma y + \mu)\frac{1}\sigma = \frac{1}{\sqrt{2\pi}}e^{-\dfrac{y^2}{2}} pX(y)=pX(σy+μ)σ1=2π 1e2y2
由期望的线性, E X = μ EX = \mu EX=μ.更一般地,任意 W : = a + b X W:=a+bX W:=a+bX都是正态变量,即正态变量的非退化线性变换还是正态变量。

随机数目的期望

X = 1 A 1 + ⋯ + 1 A n , E X = ∑ i = 1 n P ( A i ) X=1_{A_{1}}+\cdots+1_{A_{n}},EX = \sum_{i=1}^n P(A_i) X=1A1++1An,EX=i=1nP(Ai)

可以把二项分布看做 n n n次独立重复试验,每次试验的结果就是一个参数为 p p p的伯努利分布(示性函数),于是 E X = n p . EX = np. EX=np.

对于比较难以直接求解的超几何分布的期望,也可以这样看:第 i i i次抽签看做试验 A i A_i Ai,抽中次品为1,否则为0。由于抽签与顺序无关,抽中与否的概率都相等,因此 E 1 A i = p = M N E1_{A_i} = p = \dfrac M N E1Ai=p=NM。从而 E X = n M N EX = \dfrac{nM}{N} EX=NnM.

可交换随机变量的期望

考察服从 U ( 0 , 1 ) U(0,1) U(0,1)的顺序统计量 U ( 1 ) , ⋯   , U ( n ) U_{(1)},\cdots,U_{(n)} U(1),,U(n)生成的随机变量 Y 1 , ⋯   , Y n + 1 . Y_1,\cdots,Y_{n+1}. Y1,,Yn+1.则由之前的结论, ( Y 1 , ⋯   , Y n + 1 ) (Y_1,\cdots,Y_{n+1}) (Y1,,Yn+1)是可交换随机变量。于是对它们同时作用一个函数
f ( x → ) : = x 1 ∑ i x i f(\overrightarrow x) := \dfrac{x_1}{\sum_i x_i} f(x ):=ixix1

E Y 1 Y 1 + ⋯ + Y n + 1 = μ E\dfrac{Y_1}{Y_1+\cdots+Y_{n+1}} = \mu EY1++Yn+1Y1=μ
期望存在是因为它有界。由可交换性,
E Y i Y 1 + ⋯ + Y n + 1 = μ , i = 1 , 2 , ⋯   , n + 1 E\dfrac{Y_i}{Y_1+\cdots+Y_{n+1}} = \mu,i = 1,2,\cdots,n+1 EY1++Yn+1Yi=μ,i=1,2,,n+1
因此
( n + 1 ) μ = E ∑ i Y i ∑ i Y i = 1 ⇒ μ = 1 n + 1 (n+1)\mu = E\dfrac{\sum_i Y_i}{\sum_i Y_i}=1\Rightarrow \mu = \frac{1}{n+1} (n+1)μ=EiYiiYi=1μ=n+11
而且
Y 1 + Y 2 + ⋯ + Y n + 1 = 1 Y_1+Y_2+\cdots+Y_{n+1} = 1 Y1+Y2++Yn+1=1

E Y i = 1 n + 1 , E ( U ( n ) − U ( 1 ) ) = Y 2 + ⋯ + Y n = n − 1 n + 1 . EY_i = \frac1{n+1},E(U_{(n)} - U_{(1)}) = Y_2+\cdots+Y_n = \dfrac{n-1}{n+1}. EYi=n+11,E(U(n)U(1))=Y2++Yn=n+1n1.

最优预测1

f ( x ) = E ( X − x ) 2 f(x) = E(X-x)^2 f(x)=E(Xx)2,则 m i n f ( x ) = f ( E X ) = E ( X − E X ) 2 = E X 2 − ( E X ) 2 minf(x) = f(EX) = E(X-EX)^2 = EX^2-(EX)^2 minf(x)=f(EX)=E(XEX)2=EX2(EX)2.

s o l u t i o n . solution. solution.假设 a a a f ( x ) f(x) f(x)的最小值点。
f ( x ) = E ( X − a + a − x ) 2 = E ( X − a ) 2 + ( a − x ) 2 + 2 ( a − x ) E ( X − a ) f(x) = E(X-a+a-x)^2 = E(X-a)^2 + (a-x)^2 + 2(a-x)E(X-a) f(x)=E(Xa+ax)2=E(Xa)2+(ax)2+2(ax)E(Xa)
$if\ f(x)\ge f(a) = E(X-a)^2,\ then\ $
( a − x ) 2 + 2 ( a − x ) E ( X − a ) ≥ 0 , ∀ x ∈ R (a-x)^2 + 2(a-x)E(X-a) \ge 0, \forall x \in R (ax)2+2(ax)E(Xa)0,xR
则由二次函数的性质, E ( X − a ) = 0. E(X-a) = 0. E(Xa)=0. E X = a EX = a EX=a.

代入可得, f ( x ) ≥ f ( E X ) = E X 2 − ( E X ) 2 f(x)\ge f(EX) = EX^2-(EX)^2 f(x)f(EX)=EX2(EX)2.

方差、相关系数和矩

方差

定义

定义4.2.1 4.2.5 假设 E X 2 EX^2 EX2存在,则称 E ( X − E X ) 2 E(X-EX)^2 E(XEX)2 X X X的方差。(二阶矩存在则一阶矩存在),记为 V a r ( X ) o r D ( X ) Var(X)orD(X) Var(X)orD(X),称 σ X : = v a r ( X ) \sigma_X:=\sqrt{var(X)} σX:=var(X) X X X的标准差/均方差。称 E X k , E ( X − E X ) k , E e a X EX^k,E(X-EX)^k,Ee^{aX} EXk,E(XEX)k,EeaX为(原点)矩/中心矩/指数矩。

方差同样是分布的数字特征,确定了分布,就确定了方差。

方差的含义指的是:权重的分散程度。如果 v a r ( X ) = 0 var(X) = 0 var(X)=0,则 X = a . s . E X X\overset{a.s.}=EX X=a.s.EX.

在取非负整数值的情况,我们常常这样计算方差: v a r ( X ) = E X 2 − ( E X ) 2 var(X) = EX^2-(EX)^2 var(X)=EX2(EX)2.

作线性变换的过程中, v a r ( a X + b ) = E ( a X + b − a E x − b ) 2 = a 2 E ( X − E X ) 2 var(aX+b) = E(aX+b-aEx-b)^2 = a^2E(X-EX)^2 var(aX+b)=E(aX+baExb)2=a2E(XEX)2.

任何随机变量都可以通过标准化化为均值为0,方差为1的标准变量: X ∗ = X − μ σ . X^*=\dfrac{X-\mu}{\sigma}. X=σXμ.

举例
  1. Bernoulli分布: X 2 = X , v a r ( X ) = E X 2 − ( E X ) 2 = p − p 2 = p q . X^2 = X, var(X) = EX^2-(EX)^2 = p-p^2 = pq. X2=X,var(X)=EX2(EX)2=pp2=pq.

  2. 随机数目: X = 1 A 1 + ⋯ + 1 A n , X 2 = ∑ i , j 1 A i A j , E X 2 = ∑ i , j P ( A i A j ) X = 1_{A_1}+\cdots+1_{A_n},X^2 = \sum_{i,j}1_{A_iA_j},EX^2 = \sum_{i,j}P(A_iA_j) X=1A1++1An,X2=i,j1AiAj,EX2=i,jP(AiAj)

  3. 泊松分布: E X ( X − 1 ) = ∑ k = 2 n k ( k − 1 ) e − λ λ k k ! = e − λ λ 2 e λ = λ 2 EX(X-1) = \sum_{k=2}^n k(k-1)e^{-\lambda}\dfrac{\lambda^k}{k!} = e^{-\lambda}\lambda^{2}e^\lambda = \lambda^2 EX(X1)=k=2nk(k1)eλk!λk=eλλ2eλ=λ2.

    E X 2 = λ 2 + λ , v a r ( X ) = λ . EX^2 = \lambda^2+\lambda,var(X) = \lambda. EX2=λ2+λ,var(X)=λ.

  4. 均匀分布: E X 2 = ∫ 0 1 x 2 d x = 1 3 , v a r ( X ) = 1 12 E X^2 = \int_0^1 x^2dx = \frac13,var(X) = \frac1{12} EX2=01x2dx=31,var(X)=121.

  5. 正态分布:
    E Z 2 = 2 2 π ∫ 0 ∞ x 2 e − x 2 2 d x = 2 2 π ∫ 0 ∞ ( − x ) d e − x 2 2 = 2 2 π ∫ 0 ∞ e − x 2 2 d x = 1. v a r ( Z ) = 1. EZ^2 = \frac{2}{\sqrt{2\pi}}\int_0^\infty x^2e^{-\frac{x^2}{2}}dx = \frac{2}{\sqrt{2\pi}}\int_0^{\infty}(-x)de^{-\frac{x^2}{2}}=\frac{2}{\sqrt{2\pi}}\int_0^\infty e^{-\frac{x^2}{2}}dx=1.\\ var(Z) = 1. EZ2=2π 20x2e2x2dx=2π 20(x)de2x2=2π 20e2x2dx=1.var(Z)=1.
    X ∼ N ( μ , σ ) , E X = E ( σ Z + μ ) = μ , v a r X = σ 2 . X\sim N(\mu,\sigma),EX=E(\sigma Z+\mu)=\mu,varX=\sigma^2. XN(μ,σ),EX=E(σZ+μ)=μ,varX=σ2.

不等式们

1. Chebyshev Inequality

P ( ∣ X − E X ∣ ≥ ϵ ) ≤ v a r X ϵ 2 , ∀ ϵ > 0. P(|X-EX|\ge \epsilon)\le \dfrac{var X}{\epsilon^2},\forall \epsilon>0. P(XEXϵ)ϵ2varX,ϵ>0.

A = { ∣ X − E X ∣ ≥ ϵ } A = \{|X-EX|\ge \epsilon\} A={XEXϵ}。目标:寻找 Y , s . t . Y ≥ 1 A Y,s.t. Y\ge 1_A Y,s.t.Y1A,则 E Y ≥ P ( A ) . EY\ge P(A). EYP(A).

随便找一个非负的 Y Y Y,当 A A A发生的时候, Y ≥ 1 Y\ge 1 Y1。可以找 Y = ( X − E X ) 2 ϵ 2 , ( X − E X ) 4 ϵ 4 Y = \dfrac{(X-EX)^2}{\epsilon^2},\dfrac{(X-EX)^4}{\epsilon^4} Y=ϵ2(XEX)2,ϵ4(XEX)4.

利用这种方式估计的,都可以称为chebyshev inequality。比如
$$

  1. C\ge0,P(X\ge C)\le EX/C.\
  2. P(X\ge C)\le Ee^{a(X-C)},a>0
    $$
2.Cauchy-Schwarz Inequality

E X Y ≤ E X 2 E Y 2 EXY \le \sqrt{EX^2EY^2} EXYEX2EY2

这说明二阶矩存在, E X Y EXY EXY也存在,并且满足该不等式。

证明:
f ( t ) = E ( t X + Y ) 2 = E ( t 2 X 2 + Y 2 + 2 t X Y ) = t 2 E X 2 + E Y 2 + 2 t E X Y ≥ 0 , ∀ t ∈ R f(t) = E(tX+Y)^2 = E(t^2X^2+Y^2+2tXY) = t^2EX^2+EY^2+2tEXY \ge 0,\forall t\in R f(t)=E(tX+Y)2=E(t2X2+Y2+2tXY)=t2EX2+EY2+2tEXY0,tR
利用判别式小于等于0即可。注意 f ( t ) = E ( t X + Y ) 2 ≤ 2 t 2 X 2 + 2 Y 2 < ∞ f(t)=E(tX+Y)^2\le 2t^2X^2+2Y^2<\infty f(t)=E(tX+Y)22t2X2+2Y2<,故 f ( t ) f(t) f(t)始终存在。

同时,所有具有二阶矩的随机变量构成的向量空间可以成为一个内积空间,定义
< X , Y > : = E X Y , ∣ ∣ X ∣ ∣ = E X 2 , d ( X , Y ) = E ( X − Y ) 2 <X,Y> := EXY,||X||=\sqrt{EX^2},d(X,Y) = \sqrt{E(X-Y)^2} <X,Y>:=EXY,X=EX2 ,d(X,Y)=E(XY)2

协方差

协方差的引入,可以考虑两个随机变量的和的方差。
v a r ( X + Y ) = E ( ( X + Y ) − E ( X + Y ) ) 2 = E ( X − E X + Y − E Y ) 2 = v a r ( X ) + v a r ( Y ) + 2 E ( X − E X ) ( Y − E Y ) var(X+Y) = E((X+Y)-E(X+Y))^2 =E(X-EX+Y-EY)^2 = var(X)+var(Y)+2E(X-EX)(Y-EY) var(X+Y)=E((X+Y)E(X+Y))2=E(XEX+YEY)2=var(X)+var(Y)+2E(XEX)(YEY)
如果 X , Y X,Y X,Y两两独立,最后一项是没有的。所以 v a r ( X + Y ) = v a r ( X ) + v a r ( Y ) . var(X+Y)= var(X)+var(Y). var(X+Y)=var(X)+var(Y).

否则,我们可以定义

定义4.2.3 协方差 σ X , Y = c o v ( X , Y ) : = E ( X − E X ) ( Y − E Y ) . \sigma_{X,Y} = cov(X,Y) := E(X-EX)(Y-EY). σX,Y=cov(X,Y):=E(XEX)(YEY).

假设的前提是二阶矩存在。

定义协方差,目的是考虑把两个以上的随机变量放在一起时,研究他们之间的关系。可以定义随机向量的数字特征:
E X → = ( E X 1 , ⋯   , E X n ) Σ = ( σ i j ) n × n E\overrightarrow X = (EX_1,\cdots,EX_n)\\ \Sigma=(\sigma_{ij})_{n\times n} EX =(EX1,,EXn)Σ=(σij)n×n
协方差矩阵 Σ \Sigma Σ是一个半正定矩阵.

协方差是一个双线性函数:
c o v ( a X + b , c Y + d ) = a c ⋅ c o v ( X , Y ) c o v ( ∑ i X i , ∑ j Y j ) = ∑ i ∑ j c o v ( X i , Y j ) c o v ( X , X ) = v a r ( X ) c o v ( X , Y ) = E X Y − ( E X ) ( E Y ) ( s i m i l a r   t o   v a r i a n c e ) σ X , Y ≤ σ X σ Y   ( c a u c h y , E ∣ ( X − E X ) ( Y − E Y ) ∣ ≤ E ( X − E X ) 2 E ( Y − E Y ) 2 ) cov(aX+b,cY+d) = ac\cdot cov(X,Y)\\ cov(\sum_i X_i,\sum_jY_j) = \sum_i\sum_j cov(X_i,Y_j)\\ cov(X,X) = var(X) cov(X,Y) = EXY - (EX)(EY)\\ (similar\ to\ variance)\\ \sigma_{X,Y} \le \sigma_X\sigma_Y\ \\ (cauchy,E|(X-EX)(Y-EY)|\le \sqrt{E(X-EX)^2E(Y-EY)^2}) cov(aX+b,cY+d)=accov(X,Y)cov(iXi,jYj)=ijcov(Xi,Yj)cov(X,X)=var(X)cov(X,Y)=EXY(EX)(EY)(similar to variance)σX,YσXσY (cauchy,E(XEX)(YEY)E(XEX)2E(YEY)2 )

相关系数

− σ X σ Y ≤ σ X , Y ≤ σ X σ Y -\sigma_X\sigma_Y\le\sigma_{X,Y}\le\sigma_X\sigma_Y σXσYσX,YσXσY,定义
ρ = ρ X , Y : = σ X , Y σ X σ Y = c o v ( X , Y ) v a r ( X ) v a r ( Y ) \rho = \rho_{X,Y} := \dfrac{\sigma_{X,Y}}{\sigma_X\sigma_Y} = \dfrac{cov(X,Y)}{\sqrt{var(X)var(Y)}} ρ=ρX,Y:=σXσYσX,Y=var(X)var(Y) cov(X,Y)
不相关、正相关、负相关为: ρ ( o r   c o v ) = 0 , ≥ 0 , ≤ 0 \rho(or\ cov) = 0,\ge0,\le0 ρ(or cov)=0,0,0.

完全正相关、负相关: ρ = 1 , ρ = − 1. \rho = 1,\rho = -1. ρ=1,ρ=1.

思考题,假设 f : R → R f:\R\to \R f:RR单调上升,有界。证明: X = f ( W ) , Y = g ( W ) X=f(W),Y=g(W) X=f(W),Y=g(W)正相关, ∀ W . \forall W. W.

证明:

直观上来说, X X X越大, W W W的值越大, Y Y Y的值越大,因此它们之间的确正相关。严格证明:假设 W 1 , W 2 W_1,W_2 W1,W2 W W W的两个独立复制,即 W 1 , W 2 W_1,W_2 W1,W2i.i.d.)。则
( f ( W 1 ) − f ( W 2 ) ) ( g ( W 1 ) − g ( W 2 ) ) ≥ 0. (f(W_1)-f(W_2))(g(W_1)-g(W_2)) \ge 0. (f(W1)f(W2))(g(W1)g(W2))0.
这是根据单调性得出的结论。展开得
f ( W 1 ) g ( W 1 ) + f ( W 2 ) g ( W 2 ) ≥ f ( W 2 ) g ( W 1 ) + f ( W 1 ) g ( W 2 ) f(W_1)g(W_1)+f(W_2)g(W_2)\ge f(W_2)g(W_1)+f(W_1)g(W_2) f(W1)g(W1)+f(W2)g(W2)f(W2)g(W1)+f(W1)g(W2)
左右取期望,
E f ( W ) g ( W ) ≥ E f ( W ) E g ( W ) Ef(W)g(W)\ge Ef(W)Eg(W) Ef(W)g(W)Ef(W)Eg(W)
这里利用了独立性和同分布。

考虑随机变量的标准化:
ρ X ∗ , Y ∗ = c o v ( X , Y ) v a r ( X ) v a r ( Y ) = ρ X , Y . \rho_{X^*,Y^*} = \dfrac{cov(X,Y)}{\sqrt{var(X)var(Y)}} = \rho_{X,Y}. ρX,Y=var(X)var(Y) cov(X,Y)=ρX,Y.
在内积空间里,
ρ X , Y = ρ X ∗ , Y ∗ = c o v ( X ∗ , Y ∗ ) = < X ∗ , Y ∗ > = c o s θ \rho_{X,Y} = \rho_{X^*,Y^*} = cov(X^*,Y^*) = <X^*,Y^*> = cos\theta ρX,Y=ρX,Y=cov(X,Y)=<X,Y>=cosθ
因此
∣ ρ ∣ = 1    ⟺    θ = 0   o r   π    ⟺    X ∗ = a X ∗ |\rho| = 1 \iff \theta = 0\ or\ \pi \iff X^* = aX^* ρ=1θ=0 or πX=aX
X , Y X,Y X,Y相互独立,则 c o v ( X , Y ) = 0 cov(X,Y) = 0 cov(X,Y)=0,不相关。反之不然,举例为 X ∼ N ( 0 , 1 ) , Y = X 2 . c o v ( X , Y ) = E X 3 − E X E X 2 = 0. X\sim N(0,1),Y = X^2.cov(X,Y) = EX^3-EXEX^2=0. XN(0,1),Y=X2.cov(X,Y)=EX3EXEX2=0.

例子
1. 二元正态

参数 ρ \rho ρ就是 X , Y X,Y X,Y的相关系数。 X , Y X,Y X,Y不相关等价于相互独立。

注意,“不相关等价于相互独立”仅仅在于 X , Y X,Y X,Y合起来是一个二元正态才成立,而不是 X , Y X,Y X,Y自己是正态变量就成立。举例:
p ( x ) = 1 2 π e − x 2 2 , g ( x ) = c o s x ⋅ 1 { ∣ x ∣ < π } p X , Y ( x , y ) = p ( x ) p ( y ) + 1 2 π e − π 2 g ( x ) g ( y ) p(x) = \frac{1}{\sqrt{2\pi}}e^{-\frac{x^2}2},g(x) = cosx\cdot 1_{\{|x|<\pi\}}\\ p_{X,Y}(x,y) = p(x)p(y) + \frac{1}{2\pi}e^{-\pi^2}g(x)g(y) p(x)=2π 1e2x2,g(x)=cosx1{x<π}pX,Y(x,y)=p(x)p(y)+2π1eπ2g(x)g(y)
这个例子满足:(1) p ( x , y ) p(x,y) p(x,y)是一个密度函数,因为它非负,且积分为1.(2)X,Y成为两个标准正态变量;(3)X,Y不相关;(4)X,Y臂独立;(5)X,Y合起来不是一个二元正态。

2. 事件的相关

利用示性函数去定义事件的协方差、相关系数、相关性。
c o v ( 1 A , 1 B ) = E 1 A B − E 1 A E 1 B = P ( A B ) − P ( A ) P ( B ) v a r ( 1 A ) = P ( A ) − P ( A ) 2 ρ A , B = P ( A B ) − P ( A ) P ( B ) P ( A ) P ( A c ) P ( B ) P ( B c ) cov(1_A,1_B) = E1_{AB} - E1_AE1_B = P(AB) - P(A)P(B)\\ var(1_A) = P(A)-P(A)^2\\ \rho_{A,B} = \dfrac{P(AB)-P(A)P(B)}{\sqrt{P(A)P(A^c)P(B)P(B^c)}} cov(1A,1B)=E1ABE1AE1B=P(AB)P(A)P(B)var(1A)=P(A)P(A)2ρA,B=P(A)P(Ac)P(B)P(Bc) P(AB)P(A)P(B)
可见, A , B A,B A,B不相关等价于相互独立。这个性质还可以出现在所有二值随机变量上,比如服从 X = a , c ; Y = b , d X=a,c;Y=b,d X=a,c;Y=b,d的两点分布,可以记事件 A = { X = a } , B = { Y = b } A=\{X=a\},B=\{Y=b\} A={X=a},B={Y=b},这样 X , Y X,Y X,Y其实就是示性函数 1 A , 1 B 1_A,1_B 1A,1B的线性变换。如果 X , Y X,Y X,Y不相关,则线性变换的结果 1 A , 1 B 1_A,1_B 1A,1B也不相关,于是 1 A , 1 B 1_A,1_B 1A,1B独立,则 P ( X = a , Y = b ) = P ( X = a ) P ( Y = b ) P(X=a,Y=b)=P(X=a)P(Y=b) P(X=a,Y=b)=P(X=a)P(Y=b),则可推出 X , Y X,Y X,Y独立。另外,这个性质对于三值随机变量就不成立了。反例是

X,Y-101
0 1 3 \frac13 310 1 3 \frac13 31 2 3 \frac23 32
10 1 3 \frac13 310 1 3 \frac13 31
1 3 \frac13 31 1 3 \frac13 31 1 3 \frac13 31

正相关也可以理解为条件概率大于原本的概率: P ( A ∣ B ) ≥ P ( A ) . P(A|B)\ge P(A). P(AB)P(A).考虑抽球模型, A = { 第一次抽到红球 } , B = { 第二次抽到红球 } A=\{\textbf{第一次抽到红球}\},B=\{\textbf{第二次抽到红球}\} A={第一次抽到红球},B={第二次抽到红球},如果是放回抽样,则 A , B A,B A,B可以看做两个独立重复试验,不相关,相互独立。如果是不放回抽样, A , B A,B A,B各自的概率是相等的,因为抽签概率与顺序无关。但是 P ( B ∣ A ) < P ( A ) P(B|A)<P(A) P(BA)<P(A),因此 A , B A,B A,B负相关,从而不独立。

还可以从 ∣ ρ ∣ ≤ 1 |\rho|\le 1 ρ1推出 ∣ P ( A B ) − P ( A ) P ( B ) ∣ ≤ 1 4 . |P(AB) - P(A)P(B)|\le\frac14. P(AB)P(A)P(B)41.

最优预测2

问题:有两个随机变量 X , Y X,Y X,Y,满足 E X = 0 , E X 2 = 1 EX=0,EX^2=1 EX=0,EX2=1,希望能用 X X X的线性函数去预测 Y Y Y,即
Q ( a , b ) = E ( Y − ( a X + b ) ) 2 Q(a,b) = E(Y-(aX+b))^2 Q(a,b)=E(Y(aX+b))2
这个均方误差达到最小。

解决方案:取 a = c o v ( X , Y ) , b = E Y a=cov(X,Y),b=EY a=cov(X,Y),b=EY

证明:

首先令 W = Y − a X W = Y-aX W=YaX为一个新的随机变量,则
Q ( a , b ) = E ( W − b ) 2 Q(a,b) = E(W-b)^2 Q(a,b)=E(Wb)2
此时的目标是去优化 Q ( a , b ) Q(a,b) Q(a,b),由最优预测1可知, b = E W = E Y b=EW=EY b=EW=EY时可以实现目标。于是得到 b b b值。令 V = Y − E Y V=Y-EY V=YEY,设 a 0 a_0 a0使得 Q ( a ) Q(a) Q(a)达到最小值。下面优化 Q ( a ) Q(a) Q(a):
Q ( a ) = E ( Y − a X − E Y ) 2 = E ( V − a X ) 2 = E ( V − a 0 X + a 0 X ) 2 = Q ( a 0 ) + a 0 2 E X 2 + 2 a 0 E X ( V − a 0 X ) Q(a) = E(Y-aX-EY)^2 = E(V-aX)^2 = E(V-a_0X+a_0X)^2=Q(a_0)+a_0^2EX^2+2a_0EX(V-a_0X) Q(a)=E(YaXEY)2=E(VaX)2=E(Va0X+a0X)2=Q(a0)+a02EX2+2a0EX(Va0X)
于是由二次函数的性质,
E X ( V − a 0 X ) = 0 ⇒ a 0 = E X V = E X Y = c o v ( X , Y ) EX(V-a_0X) = 0\Rightarrow a_0 = EXV = EXY = cov(X,Y) EX(Va0X)=0a0=EXV=EXY=cov(X,Y)

Q ( a ) = Q ( a 0 ) + a 0 2 Q ( a 0 ) = Q ( 0 ) − a 0 2 = v a r ( Y ) − c o v ( X , Y ) 2 = ( 1 − ρ 2 ) v a r ( Y ) ∣ ρ ∣ = 1    ⟺    Y = a 0 + b 0 X Q(a) = Q(a_0) + a_0^2 \\ Q(a_0) = Q(0) - a_0^2 = var(Y) - cov(X,Y)^2 = (1-\rho^2)var(Y)\\ |\rho| = 1 \iff Y = a_0 + b_0 X Q(a)=Q(a0)+a02Q(a0)=Q(0)a02=var(Y)cov(X,Y)2=(1ρ2)var(Y)ρ=1Y=a0+b0X

最优预测3

如果用任意一个函数去预测 Y Y Y,即最小化
Q ( φ ) = E ( Y − φ ( X ) ) 2 Q(\varphi) = E(Y-\varphi(X))^2 Q(φ)=E(Yφ(X))2
结论: φ ( x ) = E ( Y ∣ X = x ) \varphi(x) = E(Y|X=x) φ(x)=E(YX=x).

证明:
Q ( φ ) = E ( Y − ϕ ( X ) + ϕ ( X ) − φ ( X ) ) 2 = Q ( ϕ ) + E ( ϕ ( X ) − φ ( X ) ) 2 + 2 E ( ϕ ( X ) − φ ( X ) ) ( Y − ϕ ( X ) ) Q(\varphi) = E(Y-\phi(X)+\phi(X)-\varphi(X))^2 = Q(\phi) + E(\phi(X)-\varphi(X))^2 +2E(\phi(X)-\varphi(X))(Y-\phi(X)) Q(φ)=E(Yϕ(X)+ϕ(X)φ(X))2=Q(ϕ)+E(ϕ(X)φ(X))2+2E(ϕ(X)φ(X))(Yϕ(X))
考虑
L e t   W = ϕ ( X ) − φ ( X ) ,   Y ^ = W ( Y − ϕ ( X ) ) E ( Y ^ ∣ X = x ) = E ( w ( Y − ϕ ( x ) ) ∣ X = x ) = w E ( Y ∣ X = x ) − w ϕ ( x ) = 0 Let\ W = \phi(X)-\varphi(X),\ \hat Y = W(Y-\phi(X))\\ E(\hat Y|X=x) = E(w(Y-\phi(x))|X=x) = wE(Y|X=x)-w\phi(x) = 0 Let W=ϕ(X)φ(X), Y^=W(Yϕ(X))E(Y^X=x)=E(w(Yϕ(x))X=x)=wE(YX=x)wϕ(x)=0
E ( Y ^ ∣ X ) = 0 E(\hat Y|X) = 0 E(Y^X)=0.
E Y ^ = E ( E ( Y ^ ∣ X ) ) = 0 E\hat Y = E(E(\hat Y|X)) = 0 EY^=E(E(Y^X))=0
因而 ϕ \phi ϕ是最小值点。

条件期望

最优预测的命题:
E [ ( Y − g ( X ) ) 2 ] ≥ E [ ( Y − E [ Y ∣ X ] ) 2 ] E[(Y-g(X))^2]\ge E[(Y-E[Y|X])^2] E[(Yg(X))2]E[(YE[YX])2]
还有一种很直觉的判断方式。当拿常数预测Y的时候,预测Y的均值最合理。这时候如果观察到了X的值,那依然预测Y的均值,不过这时候是在条件X=x的情况下。

重期望公式:
E [ E [ Y ∣ X ] ] = E Y E[E[Y|X]] = EY E[E[YX]]=EY
只需要在离散情形和连续情形会证明和使用即可。

例子:求几何分布的方差。设 X X X是一个服从参数 p p p的几何分布随机变量,随机变量 Y Y Y表示在第一轮实验中成功的示性函数。即 Y ∼ B ( 1 , p ) Y\sim B(1,p) YB(1,p)。那么
E [ X 2 ] = E E [ X 2 ∣ Y ] = E [ X 2 ∣ Y = 1 ] p + E [ X 2 ∣ Y = 0 ] ( 1 − p ) = p + E [ ( 1 + X ) 2 ] ( 1 − p ) E[X^2] = EE[X^2|Y] = E[X^2|Y=1]p + E[X^2|Y=0](1-p) = p + E[(1+X)^2](1-p) E[X2]=EE[X2Y]=E[X2Y=1]p+E[X2Y=0](1p)=p+E[(1+X)2](1p)
因此
E X 2 = 2 p 2 − 1 p , v a r ( X ) = 1 p 2 − 1 p EX^2 = \frac2{p^2}-\frac1p, var(X) = \frac1{p^2}-\frac1p EX2=p22p1,var(X)=p21p1

母函数

定义

X X X取非负整数,分布列为 p i , i = 0 , 1 , 2 , ⋯ p_i,i=0,1,2,\cdots pi,i=0,1,2,,定义 g ( s ) = ∑ i = 0 ∞ p i s i = p 0 + p 1 s + p 2 s 2 + ⋯ g(s) = \sum_{i=0}^\infty p_is^i = p_0+p_1s+p_2s^2+\cdots g(s)=i=0pisi=p0+p1s+p2s2+为随机变量 X X X的母函数,记为 g X ( s ) g_X(s) gX(s) g ( s ) g(s) g(s).如果我们规定 s s s [ − 1 , 1 ] [-1,1] [1,1]间的数,则 g ( s ) g(s) g(s)收敛,期望存在,可以认为 g ( s ) = E s X g(s) = Es^X g(s)=EsX.

注意,母函数中只涉及分布列,因此确定了分布列,母函数就被确定了。同样的,确定了母函数,由
g ( k ) ( 0 ) = p k k ! g^{(k)}(0) = p_kk! g(k)(0)=pkk!
可以确定分布列,因此母函数和分布列是唯一互相决定的。

举例:几何分布的母函数
g ( s ) = ∑ k = 1 ∞ q k − 1 p s k = p s 1 − q s g(s) = \sum_{k=1}^\infty q^{k-1}ps^k = \frac{ps}{1-qs} g(s)=k=1qk1psk=1qsps

性质

对母函数求导:
g ′ ( s ) = p 1 + 2 p 2 s + 3 p 3 s 2 + ⋯ = E X s X − 1 g ′ ′ ( s ) = 2 p 2 + 6 p 3 s + ⋯ = E X ( X − 1 ) s X − 2 g ( l ) ( s ) = E X ( X − 1 ) ⋯ ( X − l + 1 ) s X − l g ( 1 ) = ∑ i p i = 1 g ′ ( 1 ) = E X g ′ ′ ( 1 ) = E X ( X − 1 ) = E X 2 − g ′ ( 1 ) g'(s) = p_1+2p_2s+3p_3s^2+\cdots=EXs^{X-1}\\ g''(s) = 2p_2+6p_3s+\cdots = EX(X-1)s^{X-2}\\ g^{(l)}(s) = EX(X-1)\cdots(X-l+1)s^{X-l}\\ g(1) =\sum_ip_i=1\\ g'(1) = EX\\ g''(1) = EX(X-1) =EX^2-g'(1) g(s)=p1+2p2s+3p3s2+=EXsX1g(s)=2p2+6p3s+=EX(X1)sX2g(l)(s)=EX(X1)(Xl+1)sXlg(1)=ipi=1g(1)=EXg(1)=EX(X1)=EX2g(1)

乘积

X X X Y Y Y独立,则
g X + Y ( s ) = g X ( s ) g Y ( s ) g_{X+Y}(s) = g_X(s)g_Y(s) gX+Y(s)=gX(s)gY(s)
这是因为
g X + Y ( s ) = E s X + Y = E s X s Y = E s X E s Y = g X ( s ) g Y ( s ) g_{X+Y}(s) = Es^{X+Y} = Es^Xs^{Y} = Es^XEs^Y = g_X(s)g_Y(s) gX+Y(s)=EsX+Y=EsXsY=EsXEsY=gX(s)gY(s)
举例:二项分布

二项分布可以看做是 n n n i i d iid iid的伯努利分布的和,而每个伯努利分布的母函数为 q + p s q+ps q+ps,故二项分布的母函数
g ( s ) = ( q + p s ) n g(s) = (q+ps)^n g(s)=(q+ps)n
利用母函数法,还可以看到泊松逼近的一个证明方式,由
lim ⁡ n → ∞ g ( s ) = lim ⁡ n → ∞ ( 1 + p ( s − 1 ) ) n = e p ( s − 1 ) \lim_{n\to\infty} g(s) = \lim_{n\to\infty} (1+p(s-1))^n =e^{p(s-1)} nlimg(s)=nlim(1+p(s1))n=ep(s1)
这是一个参数为 p p p的泊松变量的母函数。

举例:帕斯卡分布

帕斯卡分布可以看做是r个iid的几何分布的和,而每个几何分布的母函数为 p s 1 − q s \dfrac{ps}{1-qs} 1qsps,则帕斯卡分布的母函数
g ( s ) = ( p s 1 − q s ) r g(s) = (\frac{ps}{1-qs})^r g(s)=(1qsps)r

复合

ξ = ξ 1 , ξ 2 , ⋅ , i . i . d . \xi = \xi_1,\xi_2,\cdot,i.i.d. ξ=ξ1,ξ2,,i.i.d.,且它们与 W W W独立。令 Y = ξ 1 + ⋯ + ξ W Y = \xi_1+\cdots+\xi_W Y=ξ1++ξW,则
g Y ( s ) = g W ( g ξ ( s ) ) g_Y(s) = g_W(g_\xi(s)) gY(s)=gW(gξ(s))
证明:
E ( s Y ∣ W = k ) = E ( s ξ 1 + ⋯ + ξ k ∣ W = k ) = E ( s ξ 1 + ⋯ + ξ k ) = g ξ ( s ) k g Y ( s ) = E ( s Y ) = ∑ k g ξ ( s ) k p k = g W ( g ξ ( s ) ) E(s^Y|W=k) = E(s^{\xi_1+\cdots+\xi_k}|W=k) = E(s^{\xi_1+\cdots+\xi_k})=g_\xi(s)^k\\ g_Y(s)=E(s^Y) = \sum_kg_\xi(s)^kp_k = g_W(g_\xi(s)) E(sYW=k)=E(sξ1++ξkW=k)=E(sξ1++ξk)=gξ(s)kgY(s)=E(sY)=kgξ(s)kpk=gW(gξ(s))
其他性质:
E Y = g Y ′ ( 1 ) = g ξ ′ ( 1 ) g W ′ ( g ξ ( 1 ) ) = E ξ E W EY = g_Y'(1) = g'_\xi(1)g'_W(g_\xi(1)) = E\xi EW EY=gY(1)=gξ(1)gW(gξ(1))=EξEW
直观上也可以接受,因为 Y Y Y就是 W W W ξ \xi ξ的和。

复合Possion分布

N ∼ P ( λ ) N\sim P(\lambda) NP(λ) ξ 1 , ξ 2 , ⋯ \xi_1,\xi_2,\cdots ξ1,ξ2,是一列 i . i . d i.i.d i.i.d的随机变量,则 Y = ξ 1 + ξ 2 + ⋯ + ξ N Y = \xi_1+\xi_2+\cdots+\xi_N Y=ξ1+ξ2++ξN是一个复合泊松变量。

首先计算泊松分布的母函数:
g ( s ) = e − λ ( 1 + λ 1 s + λ 2 2 ! s 2 + ⋯   ) = e − λ e λ s = e λ ( s − 1 ) g(s) = e^{-\lambda}(1+\dfrac{\lambda}{1}s+\dfrac{\lambda^2}{2!}s^2+\cdots) = e^{-\lambda}e^{\lambda s} = e^{\lambda(s-1)} g(s)=eλ(1+1λs+2!λ2s2+)=eλeλs=eλ(s1)
因此
g Y ( s ) = e λ ( g ξ ( s ) − 1 ) g_Y(s) = e^{\lambda(g_\xi(s)-1)} gY(s)=eλ(gξ(s)1)
如果 ξ \xi ξ服从 B e r n o u l l i Bernoulli Bernoulli分布, g ξ ( s ) = q + p s g_\xi(s) = q+ps gξ(s)=q+ps,则
g Y ( s ) = e λ ( q + p s − 1 ) = e λ p ( s − 1 ) g_Y(s) = e^{\lambda(q+ps-1)} =e^{\lambda p(s-1)} gY(s)=eλ(q+ps1)=eλp(s1)
因此 Y Y Y还是一个泊松分布,参数为 λ p \lambda p λp,意思是说,如果一只虫产卵数服从泊松分布,其中每个卵都独立地以概率 p p p孵化为幼虫,则一只虫产生的幼虫数还服从(复合)泊松分布。

凸组合

X , Y , ξ X,Y,\xi X,Y,ξ为相互独立的随机变量, P ( ξ = 1 ) = 1 − P ( ξ = 0 ) = p P(\xi=1) = 1-P(\xi=0) = p P(ξ=1)=1P(ξ=0)=p,即 ξ ∼ B ( 1 , p ) \xi\sim B(1,p) ξB(1,p).令
W = X ⋅ 1 { ξ = 1 } + Y ⋅ 1 { ξ = 0 } W = X\cdot1_{\{\xi=1\}}+Y\cdot 1_{\{\xi=0\}} W=X1{ξ=1}+Y1{ξ=0}
结论是
g W = p g X + ( 1 − p ) g Y g_W = pg_X+(1-p)g_Y gW=pgX+(1p)gY
证明:
g W = E ( s W ) = E ( s W ∣ ξ = 1 ) p + E ( s W ∣ ξ = 0 ) q = E ( s X ∣ ξ = 1 ) p + E ( s Y ∣ ξ = 0 ) q = p g X + ( 1 − p ) g Y g_W=E(s^W) = E(s^W|\xi=1)p+E(s^W|\xi=0)q = E(s^X|\xi=1)p+E(s^Y|\xi=0)q = pg_X+(1-p)g_Y gW=E(sW)=E(sWξ=1)p+E(sWξ=0)q=E(sXξ=1)p+E(sYξ=0)q=pgX+(1p)gY

特征函数

定义与基本性质

E e i t x = E c o s ( t X ) + − 1 s i n ( t X ) , ∀ t ∈ R Ee^{itx}=Ecos(tX)+\sqrt{-1}sin(tX),\forall t\in \R Eeitx=Ecos(tX)+1 sin(tX),tR X X X的特征函数,记为 f X ( t ) f_X(t) fX(t)

基本性质三条:

  1. f ( 0 ) = 1 f(0) = 1 f(0)=1;
  2. f ( t ) f(t) f(t)是一致连续的。
  3. f ( t ) f(t) f(t)是半正定的。即 ∀ t 1 , ⋯   , t n ∈ R \forall t_1,\cdots,t_n\in R t1,,tnR,令 a i j = f ( t i − t j ) a_{ij} = f(t_i-t_j) aij=f(titj),则 A = ( a i j ) n × n A=(a_{ij})_{n\times n} A=(aij)n×n是半正定矩阵。

B o c h n e r − K h i n c h i n e Bochner-Khinchine BochnerKhinchine定理:如果KaTeX parse error: Undefined control sequence: \C at position 8: f:\R\to\̲C̲满足上述三条,则 f f f是某个随机变量的特征函数。

逆转公式&唯一性

逆转公式:设分布函数 F ( x ) F(x) F(x)的特征函数为 f ( t ) f(t) f(t),又 x 1 , x 2 x_1,x_2 x1,x2 F ( x ) F(x) F(x)的连续点,则
F ( x 2 ) − F ( x 1 ) = lim ⁡ T → ∞ 1 2 π ∫ − T T e − i t x 1 − e − i t x 2 i t f ( t ) d t F(x_2)-F(x_1) = \lim_{T\to\infty}\frac{1}{2\pi}\int_{-T}^T\dfrac{e^{-itx_1}-e^{-itx_2}}{it}f(t)dt F(x2)F(x1)=Tlim2π1TTiteitx1eitx2f(t)dt
唯一性定理:分布函数由其特征函数唯一决定。
F ( x ) = lim ⁡ y → − ∞ lim ⁡ T → ∞ 1 2 π ∫ − T T e − i t y − e − i t x i t f ( t ) d t F(x) = \lim_{y\to-\infty}\lim_{T\to\infty}\frac{1}{2\pi}\int_{-T}^T\dfrac{e^{-ity}-e^{-itx}}{it}f(t)dt F(x)=ylimTlim2π1TTiteityeitxf(t)dt
f ( t ) f(t) f(t)是绝对可积函数时,
p ( x ) = 1 2 π ∫ − ∞ ∞ e − i t x f ( t ) d t p(x) = \frac{1}{2\pi}\int_{-\infty}^\infty e^{-itx}f(t)dt p(x)=2π1eitxf(t)dt
因此在 f ( t ) f(t) f(t)绝对可积的条件下,分布密度 p ( x ) p(x) p(x) f ( t ) f(t) f(t)的傅里叶逆变换。相同的,根据特征函数的定义,
f ( t ) = ∫ − ∞ ∞ e i t x p ( x ) d x f(t) = \int_{-\infty}^\infty e^{itx}p(x)dx f(t)=eitxp(x)dx

其他性质

如果 k k k阶矩存在,则
f ( 0 ) = 1 , f ′ ( 0 ) = i E X , f ′ ′ ( 0 ) = i 2 E X 2 , ⋯   , f ( k ) ( 0 ) = i k E X k f(0) = 1,f'(0) = iEX,f''(0) = i^2EX^2,\cdots,f^{(k)}(0) = i^kEX^k f(0)=1,f(0)=iEX,f(0)=i2EX2,,f(k)(0)=ikEXk
且有 T a y l o r Taylor Taylor展开:
f ( t ) = 1 + f ′ ( 0 ) t + f ′ ′ ( 0 ) 2 ! t 2 + ⋯ + f ( k ) ( 0 ) k ! t k + o ( t k ) . f(t) = 1+f'(0)t + \frac{f''(0)}{2!}t^2+\cdots+\frac{f^{(k)}(0)}{k!}t^k+o(t^k). f(t)=1+f(0)t+2!f(0)t2++k!f(k)(0)tk+o(tk).
线性变换:
f a X + b ( t ) = E e a i t X + i b t = e i b t E e i a t X = e i b t f X ( a t ) f_{aX+b}(t) = Ee^{aitX+ibt} = e^{ibt}Ee^{iatX} = e^{ibt}f_X(at) faX+b(t)=EeaitX+ibt=eibtEeiatX=eibtfX(at)
标准正态的特征函数:
f ( t ) = ∫ e i t x p ( x ) d x = 1 2 π ∫ e i t x e − x 2 2 d x = 1 2 π ∫ e − x 2 2 c o s ( t x ) d x f(t) = \int e^{itx}p(x)dx = \frac{1}{\sqrt{2\pi}}\int e^{itx}e^{-\frac {x^2}2}dx = \frac{1}{\sqrt{2\pi}}\int e^{-\frac {x^2}2}cos(tx)dx f(t)=eitxp(x)dx=2π 1eitxe2x2dx=2π 1e2x2cos(tx)dx
这边利用了欧拉公式和奇函数的全积分为0.

由于正态分布的一阶矩存在,因此对特征函数求导是有意义的,对它求导:
f ′ ( t ) = 1 2 π ∫ ( − x ) s i n ( t x ) e − x 2 2 d x = 1 2 π ∫ s i n ( t x ) d e − x 2 2 = − 1 2 π ∫ t c o s   t e − x 2 2 d x = − t f ( t ) f'(t) = \frac{1}{\sqrt{2\pi}}\int(-x)sin(tx)e^{-\frac{x^2}2}dx = \frac{1}{\sqrt{2\pi}}\int sin(tx)de^{-\frac{x^2}{2}} = -\frac{1}{\sqrt{2\pi}}\int tcos\ te^{-\frac{x^2}{2}}dx = -tf(t) f(t)=2π 1(x)sin(tx)e2x2dx=2π 1sin(tx)de2x2=2π 1tcos te2x2dx=tf(t)
因此解微分方程得
f ( t ) = e − t 2 2 f(t) = e^{-\frac{t^2}2} f(t)=e2t2
因而 X ∼ N ( μ , σ 2 ) X\sim N(\mu,\sigma^2) XN(μ,σ2)的特征函数
f X ( t ) = e i μ t f Z ( σ t ) = e i μ t − 1 2 σ 2 t 2 . f_X(t) = e^{i\mu t} f_Z(\sigma t) = e^{i\mu t - \frac12\sigma^2t^2}. fX(t)=eiμtfZ(σt)=eiμt21σ2t2.
乘积:如果 X , Y X,Y X,Y独立,则
f X + Y = E e i ( X + Y ) t = E e i X t e i Y t = f X f Y f_{X+Y} = Ee^{i(X+Y)t} = Ee^{iXt}e^{iYt} = f_Xf_Y fX+Y=Eei(X+Y)t=EeiXteiYt=fXfY
同样地有:bernoulli分布的特征函数 f ( t ) = q + p e i t f(t) = q+pe^{it} f(t)=q+peit,二项分布的为 ( q + p e i t ) n (q+pe^{it})^n (q+peit)n n → ∞ n\to\infty n时,这个函数逼近泊松分布的特征函数 e λ ( e i t − 1 ) e^{\lambda(e^it-1)} eλ(eit1)

特征函数的凸组合还是特征函数:设 W = X ξ + Y ( 1 − ξ ) W=X\xi+Y(1-\xi) W=Xξ+Y(1ξ),则 f W = p f X + ( 1 − p ) f Y f_W=pf_X+(1-p)f_Y fW=pfX+(1p)fY.

证明:
E e i t W = E [ e i t W ∣ ξ = 1 ] p + q E [ e i t W ∣ ξ = 0 ] = p f X + ( 1 − p ) f Y . Ee^{itW} = E[e^{itW}|\xi=1]p+qE[e^{itW}|\xi=0] = pf_X+(1-p)f_Y. EeitW=E[eitWξ=1]p+qE[eitWξ=0]=pfX+(1p)fY.

联合特征函数

f X → ( t → ) = E e i t → ⋅ X → = E e i ( t 1 X 1 + t 2 X 2 + ⋯ + t n X n ) . f_{\overrightarrow X}(\overrightarrow t) = Ee^{i\overrightarrow t\cdot\overrightarrow X} = Ee^{i(t_1X_1+t_2X_2+\cdots+t_nX_n)}. fX (t )=Eeit X =Eei(t1X1+t2X2++tnXn).

同样有逆转公式、唯一性定理等等。

边缘特征函数:
f X ( t ) = f X , Y ( t , 0 ) f_X(t) = f_{X,Y}(t,0) fX(t)=fX,Y(t,0)
只要把除了边缘的分量取为0就行。

注意区分:

X X X Y Y Y独立时,有
f X , Y ( t , s ) = f X ( t ) f Y ( s ) . ⋯ ⋯ ( 1 ) f X + Y ( t ) = f X ( t ) f Y ( t ) . ⋯ ⋯ ( 2 ) f_{X,Y}(t,s) = f_X(t)f_Y(s).\cdots\cdots(1)\\ f_{X+Y}(t) = f_X(t)f_Y(t).\cdots\cdots(2) fX,Y(t,s)=fX(t)fY(s).(1)fX+Y(t)=fX(t)fY(t).(2)
但是第一条可以推出 X , Y X,Y X,Y独立,第二条不行。注意自变量是否共用 t t t

多元正态分布

定义

X → = ( X 1 , ⋯   , X n ) T ∼ N ( μ → , Σ ) p ( x → ) = 1 2 π n ∣ Σ ∣ e x p { − 1 2 ( x → − μ → ) T Σ − 1 ( x → − μ → ) } \overrightarrow X = (X_1,\cdots,X_n)^T \sim N(\overrightarrow\mu,\Sigma)\\ p(\overrightarrow x) = \frac{1}{\sqrt{2\pi}^n\sqrt{|\Sigma|}}exp\{-\frac12(\overrightarrow x-\overrightarrow\mu)^T\Sigma^{-1}(\overrightarrow x -\overrightarrow \mu)\} X =(X1,,Xn)TN(μ ,Σ)p(x )=2π nΣ 1exp{21(x μ )TΣ1(x μ )}

可以验证, μ , Σ \mu,\Sigma μ,Σ分别是期望和协方差矩阵。 Σ \Sigma Σ是一个正定矩阵。

标准正态:
Z → = ( Z 1 , ⋯   , Z n ) T ∼ N ( 0 , I n ) \overrightarrow Z = (Z_1,\cdots,Z_n)^T\sim N(0,I_n)\\ Z =(Z1,,Zn)TN(0,In)
此时可以验证 p Z → ( z → ) = p Z ( z 1 ) p Z ( z 2 ) ⋯ p Z ( z n ) p_{\overrightarrow Z}(\overrightarrow z) = p_Z(z_1)p_Z(z_2)\cdots p_Z(z_n) pZ (z )=pZ(z1)pZ(z2)pZ(zn),因此
Z 1 , Z 2 , ⋯   , Z n   i . i . d .   ∼ N ( 0 , 1 ) Z_1,Z_2,\cdots,Z_n\ i.i.d. \ \sim N(0,1) Z1,Z2,,Zn i.i.d. N(0,1)

重要性质

非退化线性变换:
Y = ν + B X , X ∼ N ( μ , Σ ) , Y ∼ N ( B μ + ν , B Σ B T ) Y = \nu + BX, X\sim N(\mu,\Sigma),Y\sim N(B\mu+\nu,B\Sigma B^{T}) Y=ν+BX,XN(μ,Σ),YN(Bμ+ν,BΣBT)
对于正态向量, Σ \Sigma Σ是一个正定矩阵,因此存在 A A A满秩, A A T = Σ . AA^T = \Sigma. AAT=Σ.
Z = A − 1 ( X − μ ) Z = A^{-1}(X-\mu) Z=A1(Xμ)
Z Z Z是一个标准正态向量。这个 A A A也可以直接取为 Σ = U T D U \sqrt\Sigma = U^T\sqrt{D}U Σ =UTD U.

因此任何一个一般的正态向量,都可以化为标准正态,标准正态也可以通过适当的变换获得任意的正态向量。

标准正态的特征函数:
f Z ( t ) = e − 1 2 t 2 f Z → ( t → ) = e − 1 2 ( t 1 2 + ⋯ + t n 2 ) = e − 1 2 ∣ ∣ t ∣ ∣ 2 f_Z(t) = e^{-\frac12 t^2}\\ f_{\overrightarrow Z} (\overrightarrow t) = e^{-\frac{1}2(t_1^2+\cdots+t_n^2)}=e^{-\frac12||t||^2} fZ(t)=e21t2fZ (t )=e21(t12++tn2)=e21t2
而一般正态向量的特征函数:
f X ( t ) = e x p { i μ t − 1 2 σ 2 t 2 } f X → ( t → ) = e x p { i μ ⋅ t → − 1 2 t → T Σ t → } f_X(t) = exp\{i\mu t - \frac12\sigma^2t^2\} \\f_{\overrightarrow X}(\overrightarrow t) = exp\{i\mu\cdot\overrightarrow t-\frac12\overrightarrow t^T\Sigma\overrightarrow t\} fX(t)=exp{iμt21σ2t2}fX (t )=exp{iμt 21t TΣt }
如果 Σ \Sigma Σ半正定,称 f ( t → ) f(\overrightarrow t) f(t )对应的分布称为高斯分布 N ( μ → , Σ ) N(\overrightarrow\mu,\Sigma) N(μ ,Σ).

同样地,高斯向量的任意线性变换仍然是高斯向量(无法用密度刻画,用特征函数),依然存在
X → = d μ → + A Z → , A n × m : A A T = Σ \overrightarrow X \overset{d}= \overrightarrow \mu + A\overrightarrow Z, A_{n\times m}:AA^T = \Sigma X =dμ +AZ ,An×m:AAT=Σ
即使 Σ \sqrt\Sigma Σ 退化,依然存在 A A A使得 X → = μ + A Z \overrightarrow X = \mu + AZ X =μ+AZ

边缘分布:
X → = ( Y 1 , ⋯   , Y r ; W r + 1 , ⋯   , W n ) T , μ = ( ν 1 , ⋯   , ν r ; w r + 1 , ⋯   , w n ) T , f Y ( s ) = f X ( s , 0 ) = e x p { i ν → ⋅ s → − 1 2 s T Σ 11 s } . \overrightarrow X = (Y_1,\cdots,Y_r; W_{r+1},\cdots,W_n)^T,\\ \mu = (\nu_1,\cdots,\nu_r;w_{r+1},\cdots,w_n)^T,\\ f_Y(s) = f_X(s,0) = exp\{i\overrightarrow\nu\cdot \overrightarrow s-\frac12 s^T\Sigma_{11}s\}. X =(Y1,,Yr;Wr+1,,Wn)T,μ=(ν1,,νr;wr+1,,wn)T,fY(s)=fX(s,0)=exp{iν s 21sTΣ11s}.
可以发现, r r r维边缘还是高斯的,而且可以看出,两两不相关等价于相互独立。
Σ 12 = 0 ⇒ f X → ( s ; u ) = f Y ( s ) f W ( u ) ⇒ 独立 \Sigma_{12}=0\Rightarrow f_{\overrightarrow X}(s;u) = f_Y(s)f_W(u)\Rightarrow\textbf{独立} Σ12=0fX (s;u)=fY(s)fW(u)独立
计算条件分布:
( X 1 , ⋯   , X r ; X r + 1 , ⋯   , X n ) T = ( Y 1 , ⋯   , Y r ; W r + 1 , ⋯   , W n ) T (X_1,\cdots,X_r;X_{r+1},\cdots,X_n)^T = (Y_1,\cdots,Y_r;W_{r+1},\cdots,W_n)^T (X1,,Xr;Xr+1,,Xn)T=(Y1,,Yr;Wr+1,,Wn)T
如果要计算W关于 Y Y Y的条件分布,可以考虑做正交分解,设 W = B ( n − r ) × r Y ⊕ V W = B_{(n-r)\times r}Y\oplus V W=B(nr)×rYV V = W − B Y V=W-BY V=WBY。转而去求 Y , V Y,V Y,V的条件分布,而由于他们俩不相关,则相互独立,条件分布转而变为边缘分布。解出边缘分布(正态的)再用线性变换得到 W W W的分布。

首先,
( Y 1 , ⋯   , Y r ; V r + 1 , ⋯   , V n ) T (Y_1,\cdots,Y_r;V_{r+1},\cdots,V_n)^T (Y1,,Yr;Vr+1,,Vn)T
服从高斯分布,因为它是 X X X的可逆线性变换。

然后计算协方差,
c o v ( V k , Y i ) = c o v ( W k − ∑ j ≤ r b k j Y j , Y i ) = σ k i − ∑ j ≤ r b k j σ j i = ( Σ 21 − B Σ 11 ) k i cov(V_k,Y_i) = cov(W_k-\sum_{j\le r}b_{kj}Y_j,Y_i) = \sigma_{ki}-\sum_{j\le r}b_{kj}\sigma_{ji} = (\Sigma_{21}-B\Sigma_{11})_{ki} cov(Vk,Yi)=cov(WkjrbkjYj,Yi)=σkijrbkjσji=(Σ21BΣ11)ki
假设 Σ 11 \Sigma_{11} Σ11非退化,令
B = Σ 21 Σ 11 − 1 B= \Sigma_{21}\Sigma_{11}^{-1} B=Σ21Σ111
V ∼ N ( v → , Σ ~ 22 ) V\sim N(\overrightarrow v,\tilde \Sigma_{22}) VN(v ,Σ~22),其中
v → = E V = E ( W − B Y ) = w → − B ν → ,   Σ ~ 22 = Σ 22 − Σ 21 Σ 11 − 1 Σ 12 \overrightarrow v = EV = E(W-BY) = \overrightarrow w-B\overrightarrow\nu,\ \tilde\Sigma_{22} = \Sigma_{22}-\Sigma_{21}\Sigma_{11}^{-1}\Sigma_{12} v =EV=E(WBY)=w Bν , Σ~22=Σ22Σ21Σ111Σ12
于是,在 Y → = y → \overrightarrow Y = \overrightarrow y Y =y 的条件下, W = B y → + V W = B\overrightarrow y + V W=By +V,和 Y Y Y独立,条件分布为 N ( w + B ( y − ν ) , Σ ~ 22 ) N(w+B(y-\nu),\tilde\Sigma_{22}) N(w+B(yν),Σ~22).

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值