随机变量与分布

作为概率论课程的复习,梳理几个重点的公式概念。

随机变量及其分布

定义3.1.1:随机变量

假设 F \mathcal F F Ω \Omega Ω上的 σ \sigma σ代数,若 X : Ω → R X:\Omega\to\R X:ΩR满足 { X ≤ x } ∈ F \{X\le x\}\in \mathcal F {Xx}F,对 ∀ x \forall x x,则称 X X X为一个随机变量。(ppt定义)

ξ ( ω ) \xi(\omega) ξ(ω)是定义于概率空间 ( Ω , F , P ) (\Omega,\mathcal F,P) (Ω,F,P)上的单值实函数,如果对于直线上任一Borel点集B,有
{ ω : ξ ( ω ) ∈ B } ∈ F \{\omega:\xi(\omega)\in B\}\in\mathcal F {ω:ξ(ω)B}F
则称 ξ ( ω ) \xi(\omega) ξ(ω)随机变量,而 P ( ξ ( ω ) ∈ B ) P(\xi(\omega)\in B) P(ξ(ω)B)成为随机变量 ξ ( ω ) \xi(\omega) ξ(ω)概率分布。(课本定义)

课本上的定义针对一般的Borel集,而显然这两个命题是等价的,ppt的写得更简洁易懂,其中的过渡就在于 σ \sigma σ代数 F \mathcal F F的性质,使得形如 X ≤ x X\le x Xx的事件可以生成一个Borel集。这个定义的含义描述的是,随机变量是一个单值实函数,把样本空间的每个点都映到实数轴上。如果这个函数满足对每个实数对应的事件 { X ≤ x } \{X\le x\} {Xx},都是可测事件,那么这个函数就成为一个随机变量。

定理3.1.1:分布函数

由于课程不要求证明“分布函数(满足3条性质的函数)都是随机变量的分布函数”,且不区分“分布函数”和“随机变量的分布函数”,于是以下统一称为“分布函数”。

随机变量的分布函数:根据定义,用 { X ≤ x } \{X\le x\} {Xx}代替概率分布中的要求,得到唯一确定随机变量的概率分布的一个函数。

在定义随机变量的时候,不需要给出权分配方案 P P P,而分布函数就是给出了P的角色。这个P给的很玄学,理论上来说,它不是分布函数赋予的,是在给定概率模型的时候就确定每个可测事件的概率了。概率分布把随机变量将样本点从样本空间带到实数轴上之后,整个实数轴的权重刻画出来,而分布函数又是概率分布的一种形式,于是利用分布函数,可以让我们研究清楚整个分布在实轴上的状态,但却不足以告诉我们具体准确的权分配方案。

F = F X : x → P ( X ≤ x ) F=F_X:x\to P(X\le x) F=FX:xP(Xx)满足:

(1)单调性:若 x ≤ y , x\le y, xy, F ( x ) ≤ F ( y ) F(x) \le F(y) F(x)F(y).

(2)归一性: lim ⁡ x → ∞ F ( x ) = 1 ; lim ⁡ x → − ∞ F ( x ) = 0 \lim_{x\to\infty} F(x) = 1;\lim_{x\to-\infty}F(x) =0 limxF(x)=1;limxF(x)=0.

(3)右连续性: lim ⁡ δ → 0 + F ( x + δ ) = F ( x ) \lim_{\delta\to0^+} F(x+\delta) = F(x) limδ0+F(x+δ)=F(x).

称满足上述三条性质的函数为一个分布函数。任意分布函数都是某随机变量的分布函数。

根据这些性质可以进行一些计算,并引出重要的尾分布函数,它也可以唯一确定一个概率分布。以后会常常使用到同分布的结论。在这个地方的研究里,样本空间,函数映射不重要,重要的是随机变量的分布

离散型随机变量

离散型随机变量指的是 X X X取可数个值 x i , ∀ i x_i,\forall i xi,i的随机变量。

分布列

p i : = P ( X = x i ) , ∀ i p_i:= P(X = x_i),\forall i pi:=P(X=xi),i X X X的(概率)分布列。

分布列也能唯一确定离散型随机变量的概率分布。证明只需要考察分布函数的长相就可以。分布列的性质比较简单,经常接触。

离散型随机变量的分布主要有伯努利分布B(1,p)单点(退化)分布二项分布B(n,p)几何分布G§泊松分布P( λ \lambda λ)超几何分布H(N,M,n)

1.伯努利分布

伯努利分布只有两个取值0 or 1,是最简单的分布类型。一个很有用的应用是示性函数(index function)
1 A ( ω ) = 1 , ∀ ω ∈ A ; 1 A ( ω ) = 0 , ∀ ω ∉ A 1_A(\omega) = 1,\forall \omega \in A;\\ 1_A(\omega)=0,\forall \omega\notin A 1A(ω)=1,ωA;1A(ω)=0,ω/A
可以验证示性函数是一个随机变量(注意,不是分布函数哈),且若 X ∼ B ( 1 , p ) X\sim B(1,p) XB(1,p),则
X = a.s. 1 A , A = { X = 1 } . ( a l m o s t    s u r e l y ) X \overset{\text{a.s.}}{=} 1_A, A=\{X=1\}.(almost\ \ surely) X=a.s.1AA={X=1}.(almost  surely)
这挺妙的。

2.几何分布

引入几何分布中重要的尾分布函数:
G ( x ) = P ( X > n ) = ( 1 − p ) n , ∀ n ≥ 0 G(x) = P(X>n) = (1-p)^n,\forall n\ge 0 G(x)=P(X>n)=(1p)n,n0
无记忆性:

P ( X − n = k ∣ X > n ) = p ( 1 − p ) n + k − 1 ( 1 − p ) n = p ( 1 − p ) k − 1 = P ( X = k ) P(X-n = k|X>n) = \dfrac{p(1-p)^{n+k-1}}{(1-p)^n} = p(1-p)^{k-1}=P(X=k) P(Xn=kX>n)=(1p)np(1p)n+k1=p(1p)k1=P(X=k)

3.泊松分布

4.单点分布

P ( X = c ) = 1 P(X=c)=1 P(X=c)=1.

5.超几何分布

P ( X = k ) = C M k C N − m n − k / C N n , k = 0 , 1 , 2 , ⋯   , n P(X=k) = C_M^kC_{N-m}^{n-k}/C_N^n,k=0,1,2,\cdots,n P(X=k)=CMkCNmnk/CNn,k=0,1,2,,n

描述的是N个产品,其中M个是次品,抽n个,抽到k个次品的概率。知道给定 n n n,当产品数量无限多,次品数量/产品数量趋于定值p时,超几何分布 h ( k ; N , M , n ) → b ( k ; n , p ) , ∀ k h(k;N,M,n)\to b(k;n,p),\forall k h(k;N,M,n)b(k;n,p),k

连续型随机变量

定义:

存在(可积)的概率密度函数(p.d.f.)p(x)使得
P ( X ≤ x ) = ∫ − ∞ x p ( y ) d y , ∀ x ∈ R P(X\le x)= \int_{-\infty}^x p(y)\mathrm d y, \forall x\in\R P(Xx)=xp(y)dy,xR

由随机变量的分布函数的单调性质, p ( x ) ≥ 0 p(x)\ge 0 p(x)0是几乎处处成立的; p ( x ) p(x) p(x)的全积分即密度函数的归一性,为1。

根据微分的定义:
P ( x ≤ X ≤ x + Δ x ) = ∫ − ∞ x + Δ x p ( x ) d x − ∫ − ∞ x p ( x ) d x = p ( x ) Δ x + o ( Δ x ) P(x\le X\le x+\Delta x) = \int_{-\infty}^{x+\Delta x} p(x) \mathrm dx -\int_{-\infty}^{x}p(x)\mathrm dx = p(x)\Delta x + o(\Delta x) P(xXx+Δx)=x+Δxp(x)dxxp(x)dx=p(x)Δx+o(Δx)
在Lebesgue积分的意义下:
P ( X ∈ B ) = ∫ B p ( x ) d x = ∫ p ( x ) 1 B d x , ∀ B ∈ B P(X\in B) = \int_Bp(x)\mathrm dx = \int p(x) 1_B\mathrm dx, \forall B\in \mathcal B P(XB)=Bp(x)dx=p(x)1Bdx,BB
显然,密度函数就是分布函数的导数。

1.均匀(uniform)分布

p ( x ) = 1 b − a ⋅ 1 { a ≤ x ≤ b } ;      p ( x ) = 1 b − a , a < x ≤ b p(x) = \frac1{b-a}\cdot 1_{\{a\le x\le b\}}; \ \ \ \ p(x) = \frac1{b-a},a<x\le b p(x)=ba11{axb};    p(x)=ba1,a<xb

可以表示为R上的示性函数(此时示性函数的自变量是实数,事件是对实数提的要求),也可以表示为带取值范围的(限定定义域)的常函数。

2.指数(exponential)分布

X ∼ E x p ( λ ) : X\sim Exp(\lambda): XExp(λ):
p ( x ) = λ e − λ x ,    x > 0. p(x) = \lambda e^{-\lambda x},\ \ x > 0. p(x)=λeλx,  x>0.
实际意义是:等待第一个粒子出现的等待时间。

假设在 1 n \frac 1n n1时间内放射粒子的概率为 p p p,正比于区间长度 1 n \frac1n n1,假设 p = λ × 1 n . p=\lambda\times\frac 1n. p=λ×n1.这就把粒子放射看作是一个伯努利试验,令 X = Y n X=\frac Yn X=nY Y Y Y是一个几何分布,即等待第一个硬币正面的投币次数,乘上单位时间就得到等待第一个粒子放射的时间。下面考察尾分布:
P ( X > t ) = P ( Y > n t ) = ( 1 − p ) n t = ( 1 − λ n ) n t → e − λ t ( t → ∞ ) P(X>t) = P(Y>nt) = (1-p)^{nt} = (1-\frac\lambda n)^{nt}\to e^{-\lambda t}(t \to \infty) P(X>t)=P(Y>nt)=(1p)nt=(1nλ)nteλt(t)
故几何分布可以过渡到连续的指数分布。

还有无记忆性: P ( X − t > s ∣ X > t ) = e − λ s P(X-t>s|X>t) = e^{-\lambda s} P(Xt>sX>t)=eλs

一个证明:唯一无记忆性的连续型分布和离散型分布

假设 X X X为离散型随机变量,取值为 x 1 , x 2 , ⋯ x_1,x_2,\cdots x1,x2,,分布列为 p 1 , p 2 , ⋯ p_1,p_2,\cdots p1,p2,,且 X X X有无记忆性。


P ( X − n = k ∣ X > n ) = p n + k ( 1 − p 1 ) ( 1 − p 2 ) ⋯ ( 1 − p n ) = p k P(X-n = k | X > n) = \frac{p_{n+k}}{(1-p_1)(1-p_2)\cdots(1-p_n)} = p_{k} P(Xn=kX>n)=(1p1)(1p2)(1pn)pn+k=pk
n = 1 n=1 n=1,
p 1 = Δ p p 1 + k = p k ( 1 − p ) p 2 = p ( 1 − p ) p 3 = p 2 ( 1 − p ) = p ( 1 − p ) 2 ⋯ p n = p ( 1 − p ) n − 1 p_1\overset{\Delta}= p\\ p_{1+k} = p_k(1-p)\\ p_2=p(1-p)\\ p_3=p_2(1-p)=p(1-p)^2\\ \cdots\\ p_n = p(1-p)^{n-1} p1=Δpp1+k=pk(1p)p2=p(1p)p3=p2(1p)=p(1p)2pn=p(1p)n1
X X X服从几何分布。

连续性:待补充(需要利用柯西引理)。

正态(Normal)分布

X ∼ N ( μ , σ 2 ) X\sim N(\mu,\sigma^2) XN(μ,σ2)
p ( x ) = 1 2 π σ 2 e − ( x − μ ) 2 2 σ 2 . p(x) = \frac{1}{\sqrt{2\pi\sigma^2}}e^{-\frac{(x-\mu)^2}{2\sigma^2}}. p(x)=2πσ2 1e2σ2(xμ)2.
标准正态分布 X ∼ N ( 0 , 1 ) X\sim N(0,1) XN(0,1):
p Z ( x ) = 1 2 π e − x 2 2 p_Z(x) = \frac{1}{\sqrt{2\pi}}e^{-\frac{x^2}{2}} pZ(x)=2π 1e2x2

证明正态密度的积分为1:

I = 1 2 π ∫ − ∞ ∞ e − x 2 2 d x ∫ − ∞ ∞ e − y 2 2 d y = 1 2 π ∫ − ∞ ∞ ∫ − ∞ ∞ e − x 2 2 e − y 2 2 d x d y = 1 2 π ∫ 0 2 π ∫ 0 ∞ e − r 2 2 r d r d θ = − ∫ 0 + ∞ e − x d ( − x ) = 1 I = \frac{1}{2\pi}\int_{-\infty}^{\infty}e^{-\frac{x^2}{2}}\mathrm dx\int_{-\infty}^{\infty}e^{-\frac{y^2}{2}}\mathrm dy =\frac{1}{2\pi}\int_{-\infty}^{\infty}\int_{-\infty}^{\infty}e^{-\frac{x^2}{2}}e^{-\frac{y^2}{2}}\mathrm dx\mathrm dy = \frac{1}{2\pi}\int_0^{2\pi}\int_{0}^{\infty}e^{-\frac{r^2}{2}}r\mathrm dr\mathrm d\theta=-\int_{0}^{+\infty}e^{-x}\mathrm d(-x)=1 I=2π1e2x2dxe2y2dy=2π1e2x2e2y2dxdy=2π102π0e2r2rdrdθ=0+exd(x)=1

标准化:

一个一般的正态变量 X ∼ N ( μ , σ 2 ) X\sim N(\mu,\sigma^2) XN(μ,σ2),则 X − μ σ ∼ N ( 0 , 1 ) \dfrac{X-\mu}{\sigma}\sim N(0,1) σXμN(0,1)

Z = X − μ σ , Z = \dfrac{X-\mu}{\sigma}, Z=σXμ,
F Z ( x ) = P ( X ≤ σ x + μ ) = F X ( σ x + μ ) p Z ( x ) = F Z ′ ( x ) = σ F X ′ ( σ x + μ ) = 1 2 π e − x 2 2 F_Z(x) = P(X\le \sigma x+\mu) = F_X(\sigma x+\mu)\\ p_Z(x) = F_Z'(x)=\sigma F_X'(\sigma x+\mu)=\frac{1}{\sqrt{2\pi}}e^{-\frac{x^2}{2}} FZ(x)=P(Xσx+μ)=FX(σx+μ)pZ(x)=FZ(x)=σFX(σx+μ)=2π 1e2x2
故一般的正态变量可以通过减去均值,除以标准差的方式化为标准正态变量。

随机向量和随机变量独立性

随机向量

若随机变量 ξ 1 ( ω ) , ξ 2 ( ω ) , ⋯   , ξ n ( ω ) \xi_1(\omega),\xi_2(\omega),\cdots,\xi_n(\omega) ξ1(ω),ξ2(ω),,ξn(ω)定义在同一个概率空间 ( Ω , F , P ) (\Omega,\mathcal F,P) (Ω,F,P)上,则称
ξ ( ω ) = ( ξ 1 ( ω ) , ξ 2 ( ω ) , ⋯   , ξ n ( ω ) ) \xi(\omega) = (\xi_1(\omega),\xi_2(\omega),\cdots,\xi_n(\omega)) ξ(ω)=(ξ1(ω),ξ2(ω),,ξn(ω))
为一个 n n n维随机向量( n n n维随机变量)。可以记为

ξ = X → : Ω → R n , ω ↦ ( X 1 ( ω ) , ⋯   , X n ( ω ) ) \xi = \overrightarrow{X}:\Omega\to \R^n,\omega \mapsto (X_1(\omega),\cdots,X_n(\omega)) ξ=X :ΩRn,ω(X1(ω),,Xn(ω)).

甚至可以有可列个随机变量的随机向量。这时候更多称为一列随机变量。

n维Borel集

同样地,类似有
{ X ∈ B } ∈ F , B ∈ B n = σ ( { ( − ∞ , x 1 ] × ⋯ × ( − ∞ , x n ] : x 1 , ⋯   , x n ∈ R } ) \{X\in B\}\in \mathcal F,B\in \mathcal B^n=\sigma(\{(-\infty,x_1]\times\cdots\times(-\infty,x_n]:x_1,\cdots,x_n\in\R\}) {XB}F,BBn=σ({(,x1]××(,xn]:x1,,xnR})

联合分布

研究随机向量,不单单要研究每一个随机变量分量,还要研究他们合在一起产生的性质,于是引入了联合分布:
μ X → ( B ) , ∀ B ∈ B n \mu_{\overrightarrow X}(B),\forall B\in \mathcal B^n μX (B),BBn
表示的是随机向量在 B o r e l Borel Borel集上的权重分布情况。

联合分布函数:
F X ( x → ) = P ( X i ≤ x i , i = 1 , 2 , ⋯   , n ) F_X(\overrightarrow{x})=P(X_i\le x_i,i=1,2,\cdots,n) FX(x )=P(Xixi,i=1,2,,n)
联合分布函数满足三条性质:

(1)单调性:关于每个变元是不减函数;

(2)归一性:任何一个分量是 − ∞ -\infty F = 0 F=0 F=0;全都是 + ∞ +\infty +时, F = 1 F=1 F=1.

(3)右连续性;关于每个变元右连续。

对于2维情形,还需要有
F ( x + d x , y + d y ) − F ( x + d x , y ) − F ( x , y + d y ) + F ( x , y ) ≥ 0. F(x+dx,y+dy)-F(x+dx,y)-F(x,y+dy)+F(x,y) \ge 0. F(x+dx,y+dy)F(x+dx,y)F(x,y+dy)+F(x,y)0.

离散型随机向量

对随机向量 X → \overrightarrow X X ,每个分量 X i X_i Xi都是离散型随机变量。

联合分布列: P ( X i = x i , i = 1 , 2 , ⋯   , n ) P(X_i=x_i,i=1,2,\cdots,n) P(Xi=xi,i=1,2,,n).

多项分布

例子:有大量粉笔,含红、黄、蓝三种颜色,比例分别为 p 1 , p 2 , p 3 p_1,p_2,p_3 p1,p2,p3,抽 n n n支,分别抽到 R , Y , B R,Y,B R,Y,B支红、黄、蓝颜色的粉笔。

大量说明是一个二项分布。假定抽中的 R − Y − B R-Y-B RYB粉笔数量是一个随机向量,
X → ( ω ) = ( R ( ω ) , Y ( ω ) , B ( ω ) ) P ( R = k 1 , Y = k 2 , B = k 3 ) = P ( R = k 1 , Y = k 2 , B = n − k 1 − k 2 ) = C n k 1 C n − k 1 k 2 p 1 k 1 p 2 k 2 p 3 n − k 1 − k 2 , ∀ k 1 , k 2 , k 3 ≥ 0 , k 1 + k 2 + k 3 = n . P ( R = k 1 , Y = k 2 , B = k 3 ) = n ! k 1 ! k 2 ! ( n − k 1 − k 2 ) ! p 1 k 1 p 2 k 2 p 3 n − k 1 − k 2 \overrightarrow{X}(\omega) = (R(\omega),Y(\omega),B(\omega))\\ P(R=k_1,Y=k_2,B=k_3) = P(R=k_1,Y=k_2,B=n-k_1-k_2) = C_n^{k_1}C_{n-k_1}^{k_2}p_1^{k_1}p_2^{k_2}p_3^{n-k_1-k_2},\\ \forall k_1,k_2,k_3 \ge 0,k_1+k_2+k_3 = n. P(R=k_1,Y=k_2,B=k_3) = \dfrac{n!}{k_1!k_2!(n-k_1-k_2)!}p_1^{k_1}p_2^{k_2}p_3^{n-k_1-k_2} X (ω)=(R(ω),Y(ω),B(ω))P(R=k1,Y=k2,B=k3)=P(R=k1,Y=k2,B=nk1k2)=Cnk1Cnk1k2p1k1p2k2p3nk1k2,k1,k2,k30,k1+k2+k3=n.P(R=k1,Y=k2,B=k3)=k1!k2!(nk1k2)!n!p1k1p2k2p3nk1k2
上面这就是一个多项分布分布列的例子。
P ( R = k 1 ) = ∑ k 2 P ( R = k 1 , Y = k 2 ) = C n k 1 p 1 k 1 ( ∑ k 2 = 0 n − k 1 C n − k 1 k 2 p 2 k 2 p 3 n − k 1 − k 2 ) = C n k 1 p 1 k 1 ( 1 − p 1 ) n − k 1 , k 1 = 0 , ⋯   , n P(R=k_1) = \sum_{k_2} P(R=k_1,Y=k_2) = C_n^{k_1}p_1^{k_1}(\sum_{k_2=0}^{n-k_1}C_{n-k_1}^{k_2}p_2^{k_2}p_3^{n-k_1-k_2}) = C_n^{k_1}p_1^{k_1}(1-p_1)^{n-k_1},k_1=0,\cdots,n P(R=k1)=k2P(R=k1,Y=k2)=Cnk1p1k1(k2=0nk1Cnk1k2p2k2p3nk1k2)=Cnk1p1k1(1p1)nk1,k1=0,,n
这是边缘分布列。由于本质该随机向量的维数为2,将其余维度的所有情形都累加完毕,可以得到边缘分布列。
P ( Y = k 2 ∣ R = k 1 ) = P ( R = k 1 , Y = k 2 ) P ( R = k 1 ) = C n − k 1 k 2 ( p 2 p 2 + p 3 ) k 2 ( p 3 p 2 + p 3 ) n − k 1 − k 2 , k 2 = 0 , ⋯   , n − k 1 , ∀ k 1 . P(Y=k_2|R=k_1) = \dfrac{P(R=k_1,Y=k_2)}{P(R=k_1)} = C_{n-k_1}^{k_2}(\dfrac{p_2}{p_2+p_3})^{k_2}(\dfrac{p_3}{p_2+p_3})^{n-k_1-k_2},k_2=0,\cdots,n-k_1,\forall k_1. P(Y=k2R=k1)=P(R=k1)P(R=k1,Y=k2)=Cnk1k2(p2+p3p2)k2(p2+p3p3)nk1k2,k2=0,,nk1,k1.
这是条件分布列。

可以看到,边缘分布列是一个二项分布 B ( n , p 1 ) B(n,p_1) B(n,p1),条件分布列是一个二项分布 B ( n − k 1 , p 2 p 2 + p 3 ) B(n-k_1,\dfrac{p_2}{p_2+p_3}) B(nk1,p2+p3p2).

联合分布列、条件分布列、边缘分布列的关系: ∀ k 1 , k 2 : \forall k_1,k_2: k1,k2:
P ( R = k 1 , Y = k 2 ) = P ( R = k 1 ) P ( Y = k 2 ∣ R = k 1 ) . P(R=k_1,Y=k_2) = P(R=k_1)P(Y=k_2|R=k_1). P(R=k1,Y=k2)=P(R=k1)P(Y=k2R=k1).
知道联合分布列->可以求条件分布列和边缘分布列;

知道所有的条件分布列和边缘分布列->还原联合分布列。

多元超几何分布

红黄蓝球各 N 1 , N 2 , N 3 N_1,N_2,N_3 N1,N2,N3个,抽 n n n个,抽到各 R , Y , B R,Y,B R,Y,B个。
P ( R = k 1 , Y = k 2 , B = k 3 ) = C N 1 k 1 C N 2 k 2 C N 3 n − k 1 − k 2 C N 1 + N 2 + N 3 n P(R=k_1,Y=k_2,B=k_3) = \dfrac{C_{N_1}^{k_1}C_{N_2}^{k_2}C_{N_3}^{n-k_1-k_2}}{C_{N_1+N_2+N_3}^n} P(R=k1,Y=k2,B=k3)=CN1+N2+N3nCN1k1CN2k2CN3nk1k2

边缘分布列:
P ( R = k 1 ) = C N 1 k 1 ∑ k 2 C N 2 k 2 C N 3 n − k 1 − k 2 C N 1 + N 2 + N 3 n P(R=k_1) = C_{N_1}^{k_1}\sum_{k_2}\dfrac{C_{N_2}^{k_2}C_{N_3}^{n-k_1-k_2}}{C_{N_1+N_2+N_3}^n} P(R=k1)=CN1k1k2CN1+N2+N3nCN2k2CN3nk1k2
这边证明一个组合数公式:
∑ i = 0 s C a i C b s − i = C a + b s \sum_{i=0}^sC_a^iC_b^{s-i} = C_{a+b}^s i=0sCaiCbsi=Ca+bs
考虑红球有 a a a个,蓝球有 b b b个,一共从里面挑出 s s s个球,所有的方法数可以是先从红球挑 i i i个,再从蓝球挑 s − i s-i si个,对所有可能的 i i i求和。也可以直接把红球蓝球混在一起,直接挑 s s s个。那么边缘分布列:
P ( R = k 1 ) = C N 1 k 1 C N 1 + N 2 + N 3 n ∑ k 2 C N 2 k 2 C N 3 n − k 1 − k 2 = C N 1 k 1 C N 2 + N 3 n − k 1 C N 1 + N 2 + N 3 n P(R=k_1) = \dfrac{C_{N_1}^{k_1}}{C_{N_1+N_2+N_3}^n}\sum_{k_2}C_{N_2}^{k_2}C_{N_3}^{n-k_1-k_2} = \dfrac{C_{N_1}^{k_1}C_{N_2+N_3}^{n-k_1}}{C_{N_1+N_2+N_3}^n} P(R=k1)=CN1+N2+N3nCN1k1k2CN2k2CN3nk1k2=CN1+N2+N3nCN1k1CN2+N3nk1
显然边缘分布也是一个超几何分布 H ( N 1 + N 2 + N 3 , N 1 , n ) H(N_1+N_2+N_3,N_1,n) H(N1+N2+N3,N1,n).

条件分布列:
P ( Y = k 2 ∣ R = k 1 ) = C N 2 k 2 C N 3 n − k 1 − k 2 C N 2 + N 3 n − k 1 P(Y=k_2|R=k_1) = \dfrac{C_{N_2}^{k_2}C_{N_3}^{n-k_1-k_2}}{C_{N_2+N_3}^{n-k_1}} P(Y=k2R=k1)=CN2+N3nk1CN2k2CN3nk1k2
也服从超几何分布 H ( N 2 + N 3 , N 2 , n − k 1 ) H(N_2+N_3,N_2,n-k_1) H(N2+N3,N2,nk1).

连续型随机向量

连续型: X → \overrightarrow X X R n \R^n Rn中有联合概率密度函数 p ( x → ) p(\overrightarrow x) p(x ),即
P ( X → ≤ x → ) = ∫ − ∞ x 1 ⋯ ∫ − ∞ x n p ( x → ) d x 1 ⋯ d x n P(\overrightarrow X\le \overrightarrow x) = \int_{-\infty}^{x_1}\cdots\int_{-\infty}^{x_n}p(\overrightarrow x)dx_1\cdots dx_n P(X x )=x1xnp(x )dx1dxn
边缘密度:对其他维作全积分;

条件密度:定义为联合密度除以边缘密度。

两个离散型随机变量放在一起是离散型的,两个连续型随机变量放在一起就不一定是连续型的,最简单的反例是降低维数,考虑圆周上的均匀分布或者对角线上的相同分布。

均匀分布

X → ∼ U ( G ) :    p ( x → ) = 1 ∣ G ∣ ⋅ 1 G ( x → ) \overrightarrow X \sim U(G): \ \ p(\overrightarrow x) = \frac{1}{|G|}\cdot 1_{G}(\overrightarrow x) X U(G):  p(x )=G11G(x )

多元正态分布

X → ∼ N ( μ → , Σ ) :    p ( x → ) = 1 ( 2 π ) n d e t ( Σ ) e − 1 2 ( x → − μ → ) Σ − 1 ( x → − μ → ) T \overrightarrow X\sim N(\overrightarrow \mu,\Sigma):\ \ p(\overrightarrow x) = \dfrac{1}{\sqrt{(2\pi)^ndet(\Sigma)}}e^{-\frac12(\overrightarrow x - \overrightarrow \mu)\Sigma^{-1}(\overrightarrow x - \overrightarrow \mu)^T} X N(μ ,Σ):  p(x )=(2π)ndet(Σ) 1e21(x μ )Σ1(x μ )T

结论:多元正态分布的条件分布和边缘分布都是(多元)正态分布。

二元正态分布:
Σ = ( σ 1 2 ρ σ 1 σ 2 ρ σ 1 σ 2 σ 2 2 )    μ → = ( μ 1 , μ 2 ) p ( x , y ) = 1 2 π σ 1 σ 2 1 − ρ 2 e − 1 2 ( 1 − ρ 2 ) ( ( x − μ 1 ) 2 σ 1 2 − 2 ρ ( x − μ 1 ) ( y − μ 2 ) σ 1 σ 2 + ( y − μ 2 ) 2 σ 2 2 ) \Sigma = \left( \begin{matrix} \sigma_1^2 & \rho\sigma_1\sigma_2 \\ \rho\sigma_1\sigma_2 & \sigma_2^2 \end{matrix} \right) \ \ \overrightarrow\mu = (\mu_1,\mu_2)\\ p(x,y) = \dfrac{1}{2\pi\sigma_1\sigma_2\sqrt{1-\rho^2}}e^{-\dfrac{1}{2(1-\rho^2)}\left(\dfrac{(x-\mu_1)^2}{\sigma_1^2}-2\rho\dfrac{(x-\mu_1)(y-\mu_2)}{\sigma_1\sigma_2}+\dfrac{(y-\mu_2)^2}{\sigma_2^2}\right)} Σ=(σ12ρσ1σ2ρσ1σ2σ22)  μ =(μ1,μ2)p(x,y)=2πσ1σ21ρ2 1e2(1ρ2)1(σ12(xμ1)22ρσ1σ2(xμ1)(yμ2)+σ22(yμ2)2)
边缘分布 X ∼ N ( μ 1 , σ 1 2 ) , Y ∼ N ( μ 2 , σ 2 2 ) X\sim N(\mu_1,\sigma_1^2),Y\sim N(\mu_2,\sigma_2^2) XN(μ1,σ12),YN(μ2,σ22).

条件分布
p Y ∣ X ( y ∣ x ) = 1 2 π ( 1 − ρ 2 ) σ 2 2 e − ( y − μ ) 2 2 σ 2 2 , μ = μ 2 + ρ σ 2 σ 1 ( x − μ 1 ) p_{Y|X}(y|x) = \dfrac{1}{\sqrt{2\pi(1-\rho^2)\sigma_2^2}}e^{-\dfrac{(y-\mu)^2}{2\sigma_2^2}},\mu = \mu_2+\rho\dfrac{\sigma_2}{\sigma_1}(x-\mu_1) pYX(yx)=2π(1ρ2)σ22 1e2σ22(yμ)2,μ=μ2+ρσ1σ2(xμ1)

随机变量的相互独立

∀ x 1 , ⋯   , x n ∈ R \forall x_1,\cdots,x_n\in \R x1,,xnR,
P ( X 1 ≤ x 1 , ⋯   , X n ≤ x n ) = P ( X 1 ≤ x 1 ) ⋯ P ( X n ≤ x n ) . P(X_1\le x_1,\cdots,X_n\le x_n) = P(X_1\le x_1)\cdots P(X_n\le x_n). P(X1x1,,Xnxn)=P(X1x1)P(Xnxn).
则称 X 1 , ⋯   , X n X_1,\cdots,X_n X1,,Xn相互独立。

可以将其中的区域改为任意borel集。

对于连续型,可以改为联合密度。

相互独立即:联合的就是边缘的乘积,条件的就是边缘的。

验证两个随机变量相互独立:
p ( x , y ) = f ( x ) g ( y )    p ( y ∣ x ) = g ( y ) p(x,y) = f(x)g(y) \ \ p(y|x) = g(y) p(x,y)=f(x)g(y)  p(yx)=g(y)
只需要验证它们能写成只依赖于某个变元的函数即可。

对于两个连续型随机变量,如果他们相互独立,放在一起的随机向量就是连续型随机向量。
P ( X ∈ A , Y ∈ B ) = P ( X ∈ A ) P ( Y ∈ B ) = ∫ p ( x ) 1 A d x ∫ p ( y ) 1 B d y = ∫ ∫ p ( x , y ) 1 A 1 B d x d y P(X\in A,Y\in B) = P(X\in A)P(Y\in B) = \int p(x)1_A dx \int p(y)1_Bd y = \int\int p(x,y)1_A1_Bdxdy P(XA,YB)=P(XA)P(YB)=p(x)1Adxp(y)1Bdy=p(x,y)1A1Bdxdy

独立同分布

相互独立的相同分布。independent and identically distributed = i.i.d.

两两独立

P ( X i ≤ x , X j ≤ y ) = P ( X i ≤ x ) P ( X j ≤ y ) , ∀ i ≠ j , ∀ x , y P(X_i\le x, X_j\le y) = P(X_i\le x)P(X_j\le y), \forall i \not= j,\forall x,y P(Xix,Xjy)=P(Xix)P(Xjy),i=j,x,y

随机向量的独立

类似可以定义两两独立、相互独立、独立同分布。

泊松分流的例子

每个虫卵以概率p独立孵化成成虫,假设一只虫产卵数X服从P ( λ ) (\lambda) (λ),求成虫数Y和死卵数Z的分布。

P ( Y = k ) = ∑ n = k ∞ P ( Y = k ∣ X = n ) P ( X = n ) = e − λ ∑ n = k ∞ λ n n ! C n k p k ( 1 − p ) n − k = e − λ p k λ k k ! ∑ n = k ∞ λ n − k ( n − k ) ! ( 1 − p ) n − k = e − λ p ( λ p ) k k ! P(Y=k) = \sum_{n=k}^\infty P(Y=k|X=n)P(X=n) = e^{-\lambda}\sum_{n=k}^\infty\dfrac{\lambda^n}{n!}C_{n}^kp^k(1-p)^{n-k} = \dfrac{e^{-\lambda}p^k\lambda^k}{k!}\sum_{n=k}^{\infty}\dfrac{\lambda^{n-k}}{(n-k)!}(1-p)^{n-k}=e^{-\lambda p}\dfrac{(\lambda p)^k}{k!} P(Y=k)=n=kP(Y=kX=n)P(X=n)=eλn=kn!λnCnkpk(1p)nk=k!eλpkλkn=k(nk)!λnk(1p)nk=eλpk!(λp)k

Y ∼ P ( λ p ) Y\sim P(\lambda p) YP(λp),同理, Z ∼ P ( λ − λ p ) Z\sim P(\lambda-\lambda p) ZP(λλp).

一个经典的例子。

随机变量的函数及其分布

基本概念

一个从实数映到实数的函数,可以让映射(随机变量)X成为f(X),复合映射,成为新的随机变量。而需要满足的条件是这个函数是一个 B o r e l Borel Borel函数。

Borel函数

定义:任意 B o r e l Borel Borel集的原像是 B o r e l Borel Borel集。(类似于开集的原像是开集)
f − 1 ( B ) ∈ B , ∀ B ∈ B . f^{-1}(B)\in \mathcal B,\forall B\in \mathcal B. f1(B)B,BB.
可以拓展出从 n n n维到 m m m维的borel函数。

f ( X ) f(X) f(X)是一个随机变量等价于
{ f ( X ) ∈ B } ∈ F , ∀ B ∈ B    ⟺    { X ∈ f − 1 ( B ) } ∈ F \{f(X)\in B\}\in \mathcal F,\forall B\in \mathcal B \iff \{X\in f^{-1}(B)\}\in \mathcal F {f(X)B}F,BB{Xf1(B)}F
f f f是一个 b o r e l borel borel函数。

同分布的随机变量,经过同一个borel函数作用得到的新随机变量同分布。

新随机变量的分布

如果是离散型,经过 b o r e l borel borel函数 f f f作用后依然是离散型随机变量。
P ( Y = y j ) = ∑ i : f ( x i ) = y j p i . P(Y=y_j) = \sum_{i:f(x_i)=y_j} p_i. P(Y=yj)=i:f(xi)=yjpi.
连续型:

如果f严格单调,存在反函数 x = g ( y ) ∈ C 1 x=g(y)\in C^1 x=g(y)C1:
p X ( x ) ∣ d x ∣ = p y ( y ) ∣ d y ∣ ⇒ p y ( y ) = p X ( x ) 1 ∣ f ′ ( x ) ∣ = p ( y ) ( 写成y的函数 ) p_X(x)|dx| = p_y(y)|dy| \Rightarrow p_y(y) = p_X(x)\dfrac{1}{|f'(x)|} = p(y)(\textbf{写成y的函数}) pX(x)dx=py(y)dypy(y)=pX(x)f(x)1=p(y)(写成y的函数)
如果多段严格单调,可以分别累加:
p Y ( y ) = ∑ x i : f ( x i ) = y p X ( x i ) 1 ∣ f ′ ( x i ) ∣ p_Y(y) = \sum_{x_i:f(x_i)=y}p_X(x_i)\dfrac{1}{|f'(x_i)|} pY(y)=xi:f(xi)=ypX(xi)f(xi)1
随机向量:
p Y → ( y → ) = ∑ x → i : f ( x → i ) = y → p X → ( x → i ) 1 ∣ d y → / d x → ∣ . p_{\overrightarrow Y}(\overrightarrow y) = \sum_{\overrightarrow x_i:f(\overrightarrow x_i)=\overrightarrow y}p_{\overrightarrow X}(\overrightarrow x_i)\dfrac{1}{|d\overrightarrow y/d\overrightarrow x|}. pY (y )=x i:f(x i)=y pX (x i)dy /dx 1.
若降低维数,可以考虑补充定义法,最后积掉一个分量。

随机变量的和

p X + Y ( w ) = ∫ p X , Y ( x , w − x ) d x p_{X+Y}(w) = \int p_{X,Y}(x,w-x)dx pX+Y(w)=pX,Y(x,wx)dx

如果相互独立,则
p W ( w ) = ∫ p X ( x ) p Y ( w − x ) d x p_W(w) = \int p_X(x)p_Y(w-x)dx pW(w)=pX(x)pY(wx)dx

*顺序统计量

定义

X 1 , X 2 ⋯   , X n X_1,X_2\cdots,X_n X1,X2,Xn是一组iid的连续型随机变量,密度函数为 p ( x ) p(x) p(x),分布函数为 F ( x ) F(x) F(x),则
X ( 1 ) = s m a l l e s t   o f   X 1 , ⋯   , X n X ( 2 ) = s e c o n d   s m a l l e s t   o f   X 1 , ⋯   , X n ⋯ X ( n ) = l a r g e s t   o f   X 1 , ⋯   , X n X_{(1)} = smallest\ of\ X_1,\cdots,X_n\\ X_{(2)} = second\ smallest\ of\ X_1,\cdots, X_n\\ \cdots\\ X_{(n)} = largest\ of\ X_1,\cdots,X_n X(1)=smallest of X1,,XnX(2)=second smallest of X1,,XnX(n)=largest of X1,,Xn
给定一个 ω \omega ω,可以得到一组 ( X ( 1 ) , ⋯   , X ( n ) ) (X_{(1)},\cdots,X_{(n)}) (X(1),,X(n))且取值空间为 X ( 1 ) ≤ X ( 2 ) ≤ ⋯ ≤ X ( n ) X_{(1)}\le X_{(2)}\le\cdots \le X_{(n)} X(1)X(2)X(n),下面研究这个顺序统计量作为随机向量,它的分布。

联合分布

p X ( 1 ) , ⋯   , X ( n ) ( x 1 , x 2 , ⋯   , x n ) = n ! p ( x 1 ) p ( x 2 ) ⋯ p ( x n ) p_{X_{(1)},\cdots,X_{(n)}}(x_1,x_2,\cdots,x_n) = n!p(x_1)p(x_2)\cdots p(x_n) pX(1),,X(n)(x1,x2,,xn)=n!p(x1)p(x2)p(xn)

建立直观即可:顺序统计量们取到一组值 ( x 1 , ⋯   , x n ) (x_1,\cdots,x_n) (x1,,xn),原来的随机变量 X 1 , ⋯   , X n X_1,\cdots,X_n X1,,Xn可以有 n ! n! n!种排列方式去取得它们。

边缘分布

针对于某个特定的顺序统计量的边缘分布:
p X ( j ) ( x ) = n ! ( j − 1 ) ! ( n − j ) ! [ F ( x ) ] j − 1 [ 1 − F ( x ) ] n − j p ( x ) p_{X_{(j)}}(x) = \dfrac{n!}{(j-1)!(n-j)!}[F(x)]^{j-1}[1-F(x)]^{n-j}p(x) pX(j)(x)=(j1)!(nj)!n![F(x)]j1[1F(x)]njp(x)
同样可以建立直观:前面的系数是一个多项分布,考虑 X ( j ) X_{(j)} X(j) x x x点处的密度,等价于 X 1 , ⋯   , X n X_1,\cdots,X_n X1,,Xn中有 j − 1 j-1 j1个取到小于 x x x n − j n-j nj个取到大于 x x x,剩下一个位于 x x x。然后乘以这几块对应的密度累积即可。

同理可以有:
p X ( i ) , X ( j ) ( x i , x j ) = n ! ( i − 1 ) ! ( j − i − 1 ) ! ( n − j ) ! [ F ( x i ) ] i − 1 [ F ( x j ) − F ( x i ) ] j − i − 1 [ 1 − F ( x j ) ] n − j p ( x i ) p ( x j ) f o r   a l l   ( x i < x j ) p_{X_{(i)},X_{(j)}}(x_i,x_j) = \dfrac{n!}{(i-1)!(j-i-1)!(n-j)!}[F(x_i)]^{i-1}[F(x_j)-F(x_i)]^{j-i-1}[1-F(x_j)]^{n-j}p(x_i)p(x_j)\\ for\ all\ (x_i<x_j) pX(i),X(j)(xi,xj)=(i1)!(ji1)!(nj)!n![F(xi)]i1[F(xj)F(xi)]ji1[1F(xj)]njp(xi)p(xj)for all (xi<xj)
*这个可以应用到求极差的分布。

可交换性

先由这n个顺序统计量生成n个新的随机变量:
Y 1 = X ( 1 ) Y i = X ( i ) − X ( i − 1 ) ,    i = 2 , ⋯   , n Y_1 = X_{(1)}\\ Y_i = X_{(i)} - X_{(i-1)},\ \ i=2,\cdots,n\\ Y1=X(1)Yi=X(i)X(i1),  i=2,,n
X 1 , ⋯   , X n X_1,\cdots,X_n X1,,Xn服从 ( 0 , 1 ) (0,1) (0,1)上的均匀分布,则这 n n n个随机变量是可交换的。
p Y 1 , ⋯   , Y n ( y 1 , ⋯   , y n ) = p X ( 1 ) , ⋯   , X ( n ) ( y 1 , ⋯   , y 1 + ⋯ + y n ) = n !    ( 0 < y 1 < 1 , i = 1 , ⋯   , n , y 1 + ⋯ + y n < 1 ) p_{Y_1,\cdots,Y_n}(y_1,\cdots,y_n)=p_{X_{(1)},\cdots,X_{(n)}}(y_1,\cdots,y_1+\cdots+y_n)=n!\ \ (0<y_1<1,i=1,\cdots,n,y_1+\cdots+y_n<1) pY1,,Yn(y1,,yn)=pX(1),,X(n)(y1,,y1++yn)=n!  (0<y1<1,i=1,,n,y1++yn<1)
注意,利用了这个线性变换的jacobi行列式为1.

由于密度函数对 y 1 , ⋯   , y n y_1,\cdots,y_n y1,,yn都是对称的,因此这是一个可交换随机向量。

再添加一个随机变量 Y n + 1 = 1 − X ( n ) Y_{n+1} = 1-X_{(n)} Yn+1=1X(n)(依然在均匀分布的条件下讨论),则考虑
p Y 1 , ⋯   , Y n − 1 , Y n + 1 ( y 1 , ⋯   , y n − 1 , y n ) = p ( y 1 , ⋯   , y 1 + ⋯ + y n − 1 , 1 − y n ) = n ! p_{Y_1,\cdots,Y_{n-1},Y_{n+1}}(y_1,\cdots,y_{n-1},y_n) = p(y_1,\cdots,y_1+\cdots+y_{n-1},1-y_n)=n!\\ pY1,,Yn1,Yn+1(y1,,yn1,yn)=p(y1,,y1++yn1,1yn)=n!
满足的条件与之前的相同,这两个分布是相同的。因此
V = ( Y 1 , ⋯   , Y n ) = d ( Y 1 , ⋯   , Y n − 1 , Y n + 1 ) = W V=(Y_1,\cdots,Y_n) \overset{d}=(Y_1,\cdots,Y_{n-1},Y_{n+1}) = W V=(Y1,,Yn)=d(Y1,,Yn1,Yn+1)=W
于是就有
( Y 1 , ⋯   , Y n + 1 ) = d ( Y σ 1 , ⋯   , Y σ n + 1 ) (Y_1,\cdots,Y_{n+1})\overset{d}=(Y_{\sigma_1},\cdots,Y_{\sigma_{n+1}}) (Y1,,Yn+1)=d(Yσ1,,Yσn+1)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值