作为概率论课程的复习,梳理几个重点的公式概念。
随机变量及其分布
定义3.1.1:随机变量
假设 F \mathcal F F是 Ω \Omega Ω上的 σ \sigma σ代数,若 X : Ω → R X:\Omega\to\R X:Ω→R满足 { X ≤ x } ∈ F \{X\le x\}\in \mathcal F {X≤x}∈F,对 ∀ x \forall x ∀x,则称 X X X为一个随机变量。(ppt定义)
设 ξ ( ω ) \xi(\omega) ξ(ω)是定义于概率空间 ( Ω , F , P ) (\Omega,\mathcal F,P) (Ω,F,P)上的单值实函数,如果对于直线上任一Borel点集B,有
{ ω : ξ ( ω ) ∈ B } ∈ F \{\omega:\xi(\omega)\in B\}\in\mathcal F {ω:ξ(ω)∈B}∈F
则称 ξ ( ω ) \xi(\omega) ξ(ω)为随机变量,而 P ( ξ ( ω ) ∈ B ) P(\xi(\omega)\in B) P(ξ(ω)∈B)成为随机变量 ξ ( ω ) \xi(\omega) ξ(ω)的概率分布。(课本定义)
课本上的定义针对一般的Borel集,而显然这两个命题是等价的,ppt的写得更简洁易懂,其中的过渡就在于 σ \sigma σ代数 F \mathcal F F的性质,使得形如 X ≤ x X\le x X≤x的事件可以生成一个Borel集。这个定义的含义描述的是,随机变量是一个单值实函数,把样本空间的每个点都映到实数轴上。如果这个函数满足对每个实数对应的事件 { X ≤ x } \{X\le x\} {X≤x},都是可测事件,那么这个函数就成为一个随机变量。
定理3.1.1:分布函数
由于课程不要求证明“分布函数(满足3条性质的函数)都是随机变量的分布函数”,且不区分“分布函数”和“随机变量的分布函数”,于是以下统一称为“分布函数”。
随机变量的分布函数:根据定义,用 { X ≤ x } \{X\le x\} {X≤x}代替概率分布中的要求,得到唯一确定随机变量的概率分布的一个函数。
在定义随机变量的时候,不需要给出权分配方案 P P P,而分布函数就是给出了P的角色。这个P给的很玄学,理论上来说,它不是分布函数赋予的,是在给定概率模型的时候就确定每个可测事件的概率了。概率分布把随机变量将样本点从样本空间带到实数轴上之后,整个实数轴的权重刻画出来,而分布函数又是概率分布的一种形式,于是利用分布函数,可以让我们研究清楚整个分布在实轴上的状态,但却不足以告诉我们具体准确的权分配方案。
F = F X : x → P ( X ≤ x ) F=F_X:x\to P(X\le x) F=FX:x→P(X≤x)满足:
(1)单调性:若 x ≤ y , x\le y, x≤y,则 F ( x ) ≤ F ( y ) F(x) \le F(y) F(x)≤F(y).
(2)归一性: lim x → ∞ F ( x ) = 1 ; lim x → − ∞ F ( x ) = 0 \lim_{x\to\infty} F(x) = 1;\lim_{x\to-\infty}F(x) =0 limx→∞F(x)=1;limx→−∞F(x)=0.
(3)右连续性: lim δ → 0 + F ( x + δ ) = F ( x ) \lim_{\delta\to0^+} F(x+\delta) = F(x) limδ→0+F(x+δ)=F(x).
称满足上述三条性质的函数为一个分布函数。任意分布函数都是某随机变量的分布函数。
根据这些性质可以进行一些计算,并引出重要的尾分布函数,它也可以唯一确定一个概率分布。以后会常常使用到同分布的结论。在这个地方的研究里,样本空间,函数映射不重要,重要的是随机变量的分布。
离散型随机变量
离散型随机变量指的是 X X X取可数个值 x i , ∀ i x_i,\forall i xi,∀i的随机变量。
分布列
p i : = P ( X = x i ) , ∀ i p_i:= P(X = x_i),\forall i pi:=P(X=xi),∀i为 X X X的(概率)分布列。
分布列也能唯一确定离散型随机变量的概率分布。证明只需要考察分布函数的长相就可以。分布列的性质比较简单,经常接触。
离散型随机变量的分布主要有伯努利分布B(1,p),单点(退化)分布,二项分布B(n,p),几何分布G§,泊松分布P( λ \lambda λ),超几何分布H(N,M,n)。
1.伯努利分布
伯努利分布只有两个取值0 or 1,是最简单的分布类型。一个很有用的应用是示性函数(index function):
1
A
(
ω
)
=
1
,
∀
ω
∈
A
;
1
A
(
ω
)
=
0
,
∀
ω
∉
A
1_A(\omega) = 1,\forall \omega \in A;\\ 1_A(\omega)=0,\forall \omega\notin A
1A(ω)=1,∀ω∈A;1A(ω)=0,∀ω∈/A
可以验证示性函数是一个随机变量(注意,不是分布函数哈),且若
X
∼
B
(
1
,
p
)
X\sim B(1,p)
X∼B(1,p),则
X
=
a.s.
1
A
,
A
=
{
X
=
1
}
.
(
a
l
m
o
s
t
s
u
r
e
l
y
)
X \overset{\text{a.s.}}{=} 1_A, A=\{X=1\}.(almost\ \ surely)
X=a.s.1A,A={X=1}.(almost surely)
这挺妙的。
2.几何分布
引入几何分布中重要的尾分布函数:
G
(
x
)
=
P
(
X
>
n
)
=
(
1
−
p
)
n
,
∀
n
≥
0
G(x) = P(X>n) = (1-p)^n,\forall n\ge 0
G(x)=P(X>n)=(1−p)n,∀n≥0
无记忆性:
P ( X − n = k ∣ X > n ) = p ( 1 − p ) n + k − 1 ( 1 − p ) n = p ( 1 − p ) k − 1 = P ( X = k ) P(X-n = k|X>n) = \dfrac{p(1-p)^{n+k-1}}{(1-p)^n} = p(1-p)^{k-1}=P(X=k) P(X−n=k∣X>n)=(1−p)np(1−p)n+k−1=p(1−p)k−1=P(X=k)
3.泊松分布
4.单点分布
P ( X = c ) = 1 P(X=c)=1 P(X=c)=1.
5.超几何分布
P ( X = k ) = C M k C N − m n − k / C N n , k = 0 , 1 , 2 , ⋯ , n P(X=k) = C_M^kC_{N-m}^{n-k}/C_N^n,k=0,1,2,\cdots,n P(X=k)=CMkCN−mn−k/CNn,k=0,1,2,⋯,n
描述的是N个产品,其中M个是次品,抽n个,抽到k个次品的概率。知道给定 n n n,当产品数量无限多,次品数量/产品数量趋于定值p时,超几何分布 h ( k ; N , M , n ) → b ( k ; n , p ) , ∀ k h(k;N,M,n)\to b(k;n,p),\forall k h(k;N,M,n)→b(k;n,p),∀k
连续型随机变量
定义:
存在(可积)的概率密度函数(p.d.f.)p(x)使得
P ( X ≤ x ) = ∫ − ∞ x p ( y ) d y , ∀ x ∈ R P(X\le x)= \int_{-\infty}^x p(y)\mathrm d y, \forall x\in\R P(X≤x)=∫−∞xp(y)dy,∀x∈R
由随机变量的分布函数的单调性质, p ( x ) ≥ 0 p(x)\ge 0 p(x)≥0是几乎处处成立的; p ( x ) p(x) p(x)的全积分即密度函数的归一性,为1。
根据微分的定义:
P
(
x
≤
X
≤
x
+
Δ
x
)
=
∫
−
∞
x
+
Δ
x
p
(
x
)
d
x
−
∫
−
∞
x
p
(
x
)
d
x
=
p
(
x
)
Δ
x
+
o
(
Δ
x
)
P(x\le X\le x+\Delta x) = \int_{-\infty}^{x+\Delta x} p(x) \mathrm dx -\int_{-\infty}^{x}p(x)\mathrm dx = p(x)\Delta x + o(\Delta x)
P(x≤X≤x+Δx)=∫−∞x+Δxp(x)dx−∫−∞xp(x)dx=p(x)Δx+o(Δx)
在Lebesgue积分的意义下:
P
(
X
∈
B
)
=
∫
B
p
(
x
)
d
x
=
∫
p
(
x
)
1
B
d
x
,
∀
B
∈
B
P(X\in B) = \int_Bp(x)\mathrm dx = \int p(x) 1_B\mathrm dx, \forall B\in \mathcal B
P(X∈B)=∫Bp(x)dx=∫p(x)1Bdx,∀B∈B
显然,密度函数就是分布函数的导数。
1.均匀(uniform)分布
p ( x ) = 1 b − a ⋅ 1 { a ≤ x ≤ b } ; p ( x ) = 1 b − a , a < x ≤ b p(x) = \frac1{b-a}\cdot 1_{\{a\le x\le b\}}; \ \ \ \ p(x) = \frac1{b-a},a<x\le b p(x)=b−a1⋅1{a≤x≤b}; p(x)=b−a1,a<x≤b
可以表示为R上的示性函数(此时示性函数的自变量是实数,事件是对实数提的要求),也可以表示为带取值范围的(限定定义域)的常函数。
2.指数(exponential)分布
X
∼
E
x
p
(
λ
)
:
X\sim Exp(\lambda):
X∼Exp(λ):
p
(
x
)
=
λ
e
−
λ
x
,
x
>
0.
p(x) = \lambda e^{-\lambda x},\ \ x > 0.
p(x)=λe−λx, x>0.
实际意义是:等待第一个粒子出现的等待时间。
假设在
1
n
\frac 1n
n1时间内放射粒子的概率为
p
p
p,正比于区间长度
1
n
\frac1n
n1,假设
p
=
λ
×
1
n
.
p=\lambda\times\frac 1n.
p=λ×n1.这就把粒子放射看作是一个伯努利试验,令
X
=
Y
n
X=\frac Yn
X=nY,
Y
Y
Y是一个几何分布,即等待第一个硬币正面的投币次数,乘上单位时间就得到等待第一个粒子放射的时间。下面考察尾分布:
P
(
X
>
t
)
=
P
(
Y
>
n
t
)
=
(
1
−
p
)
n
t
=
(
1
−
λ
n
)
n
t
→
e
−
λ
t
(
t
→
∞
)
P(X>t) = P(Y>nt) = (1-p)^{nt} = (1-\frac\lambda n)^{nt}\to e^{-\lambda t}(t \to \infty)
P(X>t)=P(Y>nt)=(1−p)nt=(1−nλ)nt→e−λt(t→∞)
故几何分布可以过渡到连续的指数分布。
还有无记忆性: P ( X − t > s ∣ X > t ) = e − λ s P(X-t>s|X>t) = e^{-\lambda s} P(X−t>s∣X>t)=e−λs。
一个证明:唯一无记忆性的连续型分布和离散型分布
假设 X X X为离散型随机变量,取值为 x 1 , x 2 , ⋯ x_1,x_2,\cdots x1,x2,⋯,分布列为 p 1 , p 2 , ⋯ p_1,p_2,\cdots p1,p2,⋯,且 X X X有无记忆性。
则
P
(
X
−
n
=
k
∣
X
>
n
)
=
p
n
+
k
(
1
−
p
1
)
(
1
−
p
2
)
⋯
(
1
−
p
n
)
=
p
k
P(X-n = k | X > n) = \frac{p_{n+k}}{(1-p_1)(1-p_2)\cdots(1-p_n)} = p_{k}
P(X−n=k∣X>n)=(1−p1)(1−p2)⋯(1−pn)pn+k=pk
令
n
=
1
n=1
n=1,
p
1
=
Δ
p
p
1
+
k
=
p
k
(
1
−
p
)
p
2
=
p
(
1
−
p
)
p
3
=
p
2
(
1
−
p
)
=
p
(
1
−
p
)
2
⋯
p
n
=
p
(
1
−
p
)
n
−
1
p_1\overset{\Delta}= p\\ p_{1+k} = p_k(1-p)\\ p_2=p(1-p)\\ p_3=p_2(1-p)=p(1-p)^2\\ \cdots\\ p_n = p(1-p)^{n-1}
p1=Δpp1+k=pk(1−p)p2=p(1−p)p3=p2(1−p)=p(1−p)2⋯pn=p(1−p)n−1
即
X
X
X服从几何分布。
连续性:待补充(需要利用柯西引理)。
正态(Normal)分布
X
∼
N
(
μ
,
σ
2
)
X\sim N(\mu,\sigma^2)
X∼N(μ,σ2):
p
(
x
)
=
1
2
π
σ
2
e
−
(
x
−
μ
)
2
2
σ
2
.
p(x) = \frac{1}{\sqrt{2\pi\sigma^2}}e^{-\frac{(x-\mu)^2}{2\sigma^2}}.
p(x)=2πσ21e−2σ2(x−μ)2.
标准正态分布
X
∼
N
(
0
,
1
)
X\sim N(0,1)
X∼N(0,1):
p
Z
(
x
)
=
1
2
π
e
−
x
2
2
p_Z(x) = \frac{1}{\sqrt{2\pi}}e^{-\frac{x^2}{2}}
pZ(x)=2π1e−2x2
证明正态密度的积分为1:
I = 1 2 π ∫ − ∞ ∞ e − x 2 2 d x ∫ − ∞ ∞ e − y 2 2 d y = 1 2 π ∫ − ∞ ∞ ∫ − ∞ ∞ e − x 2 2 e − y 2 2 d x d y = 1 2 π ∫ 0 2 π ∫ 0 ∞ e − r 2 2 r d r d θ = − ∫ 0 + ∞ e − x d ( − x ) = 1 I = \frac{1}{2\pi}\int_{-\infty}^{\infty}e^{-\frac{x^2}{2}}\mathrm dx\int_{-\infty}^{\infty}e^{-\frac{y^2}{2}}\mathrm dy =\frac{1}{2\pi}\int_{-\infty}^{\infty}\int_{-\infty}^{\infty}e^{-\frac{x^2}{2}}e^{-\frac{y^2}{2}}\mathrm dx\mathrm dy = \frac{1}{2\pi}\int_0^{2\pi}\int_{0}^{\infty}e^{-\frac{r^2}{2}}r\mathrm dr\mathrm d\theta=-\int_{0}^{+\infty}e^{-x}\mathrm d(-x)=1 I=2π1∫−∞∞e−2x2dx∫−∞∞e−2y2dy=2π1∫−∞∞∫−∞∞e−2x2e−2y2dxdy=2π1∫02π∫0∞e−2r2rdrdθ=−∫0+∞e−xd(−x)=1
标准化:
一个一般的正态变量 X ∼ N ( μ , σ 2 ) X\sim N(\mu,\sigma^2) X∼N(μ,σ2),则 X − μ σ ∼ N ( 0 , 1 ) \dfrac{X-\mu}{\sigma}\sim N(0,1) σX−μ∼N(0,1):
令
Z
=
X
−
μ
σ
,
Z = \dfrac{X-\mu}{\sigma},
Z=σX−μ,
F
Z
(
x
)
=
P
(
X
≤
σ
x
+
μ
)
=
F
X
(
σ
x
+
μ
)
p
Z
(
x
)
=
F
Z
′
(
x
)
=
σ
F
X
′
(
σ
x
+
μ
)
=
1
2
π
e
−
x
2
2
F_Z(x) = P(X\le \sigma x+\mu) = F_X(\sigma x+\mu)\\ p_Z(x) = F_Z'(x)=\sigma F_X'(\sigma x+\mu)=\frac{1}{\sqrt{2\pi}}e^{-\frac{x^2}{2}}
FZ(x)=P(X≤σx+μ)=FX(σx+μ)pZ(x)=FZ′(x)=σFX′(σx+μ)=2π1e−2x2
故一般的正态变量可以通过减去均值,除以标准差的方式化为标准正态变量。
随机向量和随机变量独立性
随机向量
若随机变量 ξ 1 ( ω ) , ξ 2 ( ω ) , ⋯ , ξ n ( ω ) \xi_1(\omega),\xi_2(\omega),\cdots,\xi_n(\omega) ξ1(ω),ξ2(ω),⋯,ξn(ω)定义在同一个概率空间 ( Ω , F , P ) (\Omega,\mathcal F,P) (Ω,F,P)上,则称
ξ ( ω ) = ( ξ 1 ( ω ) , ξ 2 ( ω ) , ⋯ , ξ n ( ω ) ) \xi(\omega) = (\xi_1(\omega),\xi_2(\omega),\cdots,\xi_n(\omega)) ξ(ω)=(ξ1(ω),ξ2(ω),⋯,ξn(ω))
为一个 n n n维随机向量( n n n维随机变量)。可以记为ξ = X → : Ω → R n , ω ↦ ( X 1 ( ω ) , ⋯ , X n ( ω ) ) \xi = \overrightarrow{X}:\Omega\to \R^n,\omega \mapsto (X_1(\omega),\cdots,X_n(\omega)) ξ=X:Ω→Rn,ω↦(X1(ω),⋯,Xn(ω)).
甚至可以有可列个随机变量的随机向量。这时候更多称为一列随机变量。
n维Borel集
同样地,类似有
{
X
∈
B
}
∈
F
,
B
∈
B
n
=
σ
(
{
(
−
∞
,
x
1
]
×
⋯
×
(
−
∞
,
x
n
]
:
x
1
,
⋯
,
x
n
∈
R
}
)
\{X\in B\}\in \mathcal F,B\in \mathcal B^n=\sigma(\{(-\infty,x_1]\times\cdots\times(-\infty,x_n]:x_1,\cdots,x_n\in\R\})
{X∈B}∈F,B∈Bn=σ({(−∞,x1]×⋯×(−∞,xn]:x1,⋯,xn∈R})
联合分布
研究随机向量,不单单要研究每一个随机变量分量,还要研究他们合在一起产生的性质,于是引入了联合分布:
μ
X
→
(
B
)
,
∀
B
∈
B
n
\mu_{\overrightarrow X}(B),\forall B\in \mathcal B^n
μX(B),∀B∈Bn
表示的是随机向量在
B
o
r
e
l
Borel
Borel集上的权重分布情况。
联合分布函数:
F
X
(
x
→
)
=
P
(
X
i
≤
x
i
,
i
=
1
,
2
,
⋯
,
n
)
F_X(\overrightarrow{x})=P(X_i\le x_i,i=1,2,\cdots,n)
FX(x)=P(Xi≤xi,i=1,2,⋯,n)
联合分布函数满足三条性质:
(1)单调性:关于每个变元是不减函数;
(2)归一性:任何一个分量是 − ∞ -\infty −∞, F = 0 F=0 F=0;全都是 + ∞ +\infty +∞时, F = 1 F=1 F=1.
(3)右连续性;关于每个变元右连续。
对于2维情形,还需要有
F
(
x
+
d
x
,
y
+
d
y
)
−
F
(
x
+
d
x
,
y
)
−
F
(
x
,
y
+
d
y
)
+
F
(
x
,
y
)
≥
0.
F(x+dx,y+dy)-F(x+dx,y)-F(x,y+dy)+F(x,y) \ge 0.
F(x+dx,y+dy)−F(x+dx,y)−F(x,y+dy)+F(x,y)≥0.
离散型随机向量
对随机向量 X → \overrightarrow X X,每个分量 X i X_i Xi都是离散型随机变量。
联合分布列: P ( X i = x i , i = 1 , 2 , ⋯ , n ) P(X_i=x_i,i=1,2,\cdots,n) P(Xi=xi,i=1,2,⋯,n).
多项分布
例子:有大量粉笔,含红、黄、蓝三种颜色,比例分别为 p 1 , p 2 , p 3 p_1,p_2,p_3 p1,p2,p3,抽 n n n支,分别抽到 R , Y , B R,Y,B R,Y,B支红、黄、蓝颜色的粉笔。
大量说明是一个二项分布。假定抽中的
R
−
Y
−
B
R-Y-B
R−Y−B粉笔数量是一个随机向量,
X
→
(
ω
)
=
(
R
(
ω
)
,
Y
(
ω
)
,
B
(
ω
)
)
P
(
R
=
k
1
,
Y
=
k
2
,
B
=
k
3
)
=
P
(
R
=
k
1
,
Y
=
k
2
,
B
=
n
−
k
1
−
k
2
)
=
C
n
k
1
C
n
−
k
1
k
2
p
1
k
1
p
2
k
2
p
3
n
−
k
1
−
k
2
,
∀
k
1
,
k
2
,
k
3
≥
0
,
k
1
+
k
2
+
k
3
=
n
.
P
(
R
=
k
1
,
Y
=
k
2
,
B
=
k
3
)
=
n
!
k
1
!
k
2
!
(
n
−
k
1
−
k
2
)
!
p
1
k
1
p
2
k
2
p
3
n
−
k
1
−
k
2
\overrightarrow{X}(\omega) = (R(\omega),Y(\omega),B(\omega))\\ P(R=k_1,Y=k_2,B=k_3) = P(R=k_1,Y=k_2,B=n-k_1-k_2) = C_n^{k_1}C_{n-k_1}^{k_2}p_1^{k_1}p_2^{k_2}p_3^{n-k_1-k_2},\\ \forall k_1,k_2,k_3 \ge 0,k_1+k_2+k_3 = n. P(R=k_1,Y=k_2,B=k_3) = \dfrac{n!}{k_1!k_2!(n-k_1-k_2)!}p_1^{k_1}p_2^{k_2}p_3^{n-k_1-k_2}
X(ω)=(R(ω),Y(ω),B(ω))P(R=k1,Y=k2,B=k3)=P(R=k1,Y=k2,B=n−k1−k2)=Cnk1Cn−k1k2p1k1p2k2p3n−k1−k2,∀k1,k2,k3≥0,k1+k2+k3=n.P(R=k1,Y=k2,B=k3)=k1!k2!(n−k1−k2)!n!p1k1p2k2p3n−k1−k2
上面这就是一个多项分布分布列的例子。
P
(
R
=
k
1
)
=
∑
k
2
P
(
R
=
k
1
,
Y
=
k
2
)
=
C
n
k
1
p
1
k
1
(
∑
k
2
=
0
n
−
k
1
C
n
−
k
1
k
2
p
2
k
2
p
3
n
−
k
1
−
k
2
)
=
C
n
k
1
p
1
k
1
(
1
−
p
1
)
n
−
k
1
,
k
1
=
0
,
⋯
,
n
P(R=k_1) = \sum_{k_2} P(R=k_1,Y=k_2) = C_n^{k_1}p_1^{k_1}(\sum_{k_2=0}^{n-k_1}C_{n-k_1}^{k_2}p_2^{k_2}p_3^{n-k_1-k_2}) = C_n^{k_1}p_1^{k_1}(1-p_1)^{n-k_1},k_1=0,\cdots,n
P(R=k1)=k2∑P(R=k1,Y=k2)=Cnk1p1k1(k2=0∑n−k1Cn−k1k2p2k2p3n−k1−k2)=Cnk1p1k1(1−p1)n−k1,k1=0,⋯,n
这是边缘分布列。由于本质该随机向量的维数为2,将其余维度的所有情形都累加完毕,可以得到边缘分布列。
P
(
Y
=
k
2
∣
R
=
k
1
)
=
P
(
R
=
k
1
,
Y
=
k
2
)
P
(
R
=
k
1
)
=
C
n
−
k
1
k
2
(
p
2
p
2
+
p
3
)
k
2
(
p
3
p
2
+
p
3
)
n
−
k
1
−
k
2
,
k
2
=
0
,
⋯
,
n
−
k
1
,
∀
k
1
.
P(Y=k_2|R=k_1) = \dfrac{P(R=k_1,Y=k_2)}{P(R=k_1)} = C_{n-k_1}^{k_2}(\dfrac{p_2}{p_2+p_3})^{k_2}(\dfrac{p_3}{p_2+p_3})^{n-k_1-k_2},k_2=0,\cdots,n-k_1,\forall k_1.
P(Y=k2∣R=k1)=P(R=k1)P(R=k1,Y=k2)=Cn−k1k2(p2+p3p2)k2(p2+p3p3)n−k1−k2,k2=0,⋯,n−k1,∀k1.
这是条件分布列。
可以看到,边缘分布列是一个二项分布 B ( n , p 1 ) B(n,p_1) B(n,p1),条件分布列是一个二项分布 B ( n − k 1 , p 2 p 2 + p 3 ) B(n-k_1,\dfrac{p_2}{p_2+p_3}) B(n−k1,p2+p3p2).
联合分布列、条件分布列、边缘分布列的关系:
∀
k
1
,
k
2
:
\forall k_1,k_2:
∀k1,k2:
P
(
R
=
k
1
,
Y
=
k
2
)
=
P
(
R
=
k
1
)
P
(
Y
=
k
2
∣
R
=
k
1
)
.
P(R=k_1,Y=k_2) = P(R=k_1)P(Y=k_2|R=k_1).
P(R=k1,Y=k2)=P(R=k1)P(Y=k2∣R=k1).
知道联合分布列->可以求条件分布列和边缘分布列;
知道所有的条件分布列和边缘分布列->还原联合分布列。
多元超几何分布
红黄蓝球各
N
1
,
N
2
,
N
3
N_1,N_2,N_3
N1,N2,N3个,抽
n
n
n个,抽到各
R
,
Y
,
B
R,Y,B
R,Y,B个。
P
(
R
=
k
1
,
Y
=
k
2
,
B
=
k
3
)
=
C
N
1
k
1
C
N
2
k
2
C
N
3
n
−
k
1
−
k
2
C
N
1
+
N
2
+
N
3
n
P(R=k_1,Y=k_2,B=k_3) = \dfrac{C_{N_1}^{k_1}C_{N_2}^{k_2}C_{N_3}^{n-k_1-k_2}}{C_{N_1+N_2+N_3}^n}
P(R=k1,Y=k2,B=k3)=CN1+N2+N3nCN1k1CN2k2CN3n−k1−k2
边缘分布列:
P
(
R
=
k
1
)
=
C
N
1
k
1
∑
k
2
C
N
2
k
2
C
N
3
n
−
k
1
−
k
2
C
N
1
+
N
2
+
N
3
n
P(R=k_1) = C_{N_1}^{k_1}\sum_{k_2}\dfrac{C_{N_2}^{k_2}C_{N_3}^{n-k_1-k_2}}{C_{N_1+N_2+N_3}^n}
P(R=k1)=CN1k1k2∑CN1+N2+N3nCN2k2CN3n−k1−k2
这边证明一个组合数公式:
∑
i
=
0
s
C
a
i
C
b
s
−
i
=
C
a
+
b
s
\sum_{i=0}^sC_a^iC_b^{s-i} = C_{a+b}^s
i=0∑sCaiCbs−i=Ca+bs
考虑红球有
a
a
a个,蓝球有
b
b
b个,一共从里面挑出
s
s
s个球,所有的方法数可以是先从红球挑
i
i
i个,再从蓝球挑
s
−
i
s-i
s−i个,对所有可能的
i
i
i求和。也可以直接把红球蓝球混在一起,直接挑
s
s
s个。那么边缘分布列:
P
(
R
=
k
1
)
=
C
N
1
k
1
C
N
1
+
N
2
+
N
3
n
∑
k
2
C
N
2
k
2
C
N
3
n
−
k
1
−
k
2
=
C
N
1
k
1
C
N
2
+
N
3
n
−
k
1
C
N
1
+
N
2
+
N
3
n
P(R=k_1) = \dfrac{C_{N_1}^{k_1}}{C_{N_1+N_2+N_3}^n}\sum_{k_2}C_{N_2}^{k_2}C_{N_3}^{n-k_1-k_2} = \dfrac{C_{N_1}^{k_1}C_{N_2+N_3}^{n-k_1}}{C_{N_1+N_2+N_3}^n}
P(R=k1)=CN1+N2+N3nCN1k1k2∑CN2k2CN3n−k1−k2=CN1+N2+N3nCN1k1CN2+N3n−k1
显然边缘分布也是一个超几何分布
H
(
N
1
+
N
2
+
N
3
,
N
1
,
n
)
H(N_1+N_2+N_3,N_1,n)
H(N1+N2+N3,N1,n).
条件分布列:
P
(
Y
=
k
2
∣
R
=
k
1
)
=
C
N
2
k
2
C
N
3
n
−
k
1
−
k
2
C
N
2
+
N
3
n
−
k
1
P(Y=k_2|R=k_1) = \dfrac{C_{N_2}^{k_2}C_{N_3}^{n-k_1-k_2}}{C_{N_2+N_3}^{n-k_1}}
P(Y=k2∣R=k1)=CN2+N3n−k1CN2k2CN3n−k1−k2
也服从超几何分布
H
(
N
2
+
N
3
,
N
2
,
n
−
k
1
)
H(N_2+N_3,N_2,n-k_1)
H(N2+N3,N2,n−k1).
连续型随机向量
连续型:
X
→
\overrightarrow X
X在
R
n
\R^n
Rn中有联合概率密度函数
p
(
x
→
)
p(\overrightarrow x)
p(x),即
P
(
X
→
≤
x
→
)
=
∫
−
∞
x
1
⋯
∫
−
∞
x
n
p
(
x
→
)
d
x
1
⋯
d
x
n
P(\overrightarrow X\le \overrightarrow x) = \int_{-\infty}^{x_1}\cdots\int_{-\infty}^{x_n}p(\overrightarrow x)dx_1\cdots dx_n
P(X≤x)=∫−∞x1⋯∫−∞xnp(x)dx1⋯dxn
边缘密度:对其他维作全积分;
条件密度:定义为联合密度除以边缘密度。
两个离散型随机变量放在一起是离散型的,两个连续型随机变量放在一起就不一定是连续型的,最简单的反例是降低维数,考虑圆周上的均匀分布或者对角线上的相同分布。
均匀分布
X → ∼ U ( G ) : p ( x → ) = 1 ∣ G ∣ ⋅ 1 G ( x → ) \overrightarrow X \sim U(G): \ \ p(\overrightarrow x) = \frac{1}{|G|}\cdot 1_{G}(\overrightarrow x) X∼U(G): p(x)=∣G∣1⋅1G(x)
多元正态分布
X → ∼ N ( μ → , Σ ) : p ( x → ) = 1 ( 2 π ) n d e t ( Σ ) e − 1 2 ( x → − μ → ) Σ − 1 ( x → − μ → ) T \overrightarrow X\sim N(\overrightarrow \mu,\Sigma):\ \ p(\overrightarrow x) = \dfrac{1}{\sqrt{(2\pi)^ndet(\Sigma)}}e^{-\frac12(\overrightarrow x - \overrightarrow \mu)\Sigma^{-1}(\overrightarrow x - \overrightarrow \mu)^T} X∼N(μ,Σ): p(x)=(2π)ndet(Σ)1e−21(x−μ)Σ−1(x−μ)T
结论:多元正态分布的条件分布和边缘分布都是(多元)正态分布。
二元正态分布:
Σ
=
(
σ
1
2
ρ
σ
1
σ
2
ρ
σ
1
σ
2
σ
2
2
)
μ
→
=
(
μ
1
,
μ
2
)
p
(
x
,
y
)
=
1
2
π
σ
1
σ
2
1
−
ρ
2
e
−
1
2
(
1
−
ρ
2
)
(
(
x
−
μ
1
)
2
σ
1
2
−
2
ρ
(
x
−
μ
1
)
(
y
−
μ
2
)
σ
1
σ
2
+
(
y
−
μ
2
)
2
σ
2
2
)
\Sigma = \left( \begin{matrix} \sigma_1^2 & \rho\sigma_1\sigma_2 \\ \rho\sigma_1\sigma_2 & \sigma_2^2 \end{matrix} \right) \ \ \overrightarrow\mu = (\mu_1,\mu_2)\\ p(x,y) = \dfrac{1}{2\pi\sigma_1\sigma_2\sqrt{1-\rho^2}}e^{-\dfrac{1}{2(1-\rho^2)}\left(\dfrac{(x-\mu_1)^2}{\sigma_1^2}-2\rho\dfrac{(x-\mu_1)(y-\mu_2)}{\sigma_1\sigma_2}+\dfrac{(y-\mu_2)^2}{\sigma_2^2}\right)}
Σ=(σ12ρσ1σ2ρσ1σ2σ22) μ=(μ1,μ2)p(x,y)=2πσ1σ21−ρ21e−2(1−ρ2)1(σ12(x−μ1)2−2ρσ1σ2(x−μ1)(y−μ2)+σ22(y−μ2)2)
边缘分布
X
∼
N
(
μ
1
,
σ
1
2
)
,
Y
∼
N
(
μ
2
,
σ
2
2
)
X\sim N(\mu_1,\sigma_1^2),Y\sim N(\mu_2,\sigma_2^2)
X∼N(μ1,σ12),Y∼N(μ2,σ22).
条件分布
p
Y
∣
X
(
y
∣
x
)
=
1
2
π
(
1
−
ρ
2
)
σ
2
2
e
−
(
y
−
μ
)
2
2
σ
2
2
,
μ
=
μ
2
+
ρ
σ
2
σ
1
(
x
−
μ
1
)
p_{Y|X}(y|x) = \dfrac{1}{\sqrt{2\pi(1-\rho^2)\sigma_2^2}}e^{-\dfrac{(y-\mu)^2}{2\sigma_2^2}},\mu = \mu_2+\rho\dfrac{\sigma_2}{\sigma_1}(x-\mu_1)
pY∣X(y∣x)=2π(1−ρ2)σ221e−2σ22(y−μ)2,μ=μ2+ρσ1σ2(x−μ1)
随机变量的相互独立
若 ∀ x 1 , ⋯ , x n ∈ R \forall x_1,\cdots,x_n\in \R ∀x1,⋯,xn∈R,
P ( X 1 ≤ x 1 , ⋯ , X n ≤ x n ) = P ( X 1 ≤ x 1 ) ⋯ P ( X n ≤ x n ) . P(X_1\le x_1,\cdots,X_n\le x_n) = P(X_1\le x_1)\cdots P(X_n\le x_n). P(X1≤x1,⋯,Xn≤xn)=P(X1≤x1)⋯P(Xn≤xn).
则称 X 1 , ⋯ , X n X_1,\cdots,X_n X1,⋯,Xn相互独立。
可以将其中的区域改为任意borel集。
对于连续型,可以改为联合密度。
相互独立即:联合的就是边缘的乘积,条件的就是边缘的。
验证两个随机变量相互独立:
p
(
x
,
y
)
=
f
(
x
)
g
(
y
)
p
(
y
∣
x
)
=
g
(
y
)
p(x,y) = f(x)g(y) \ \ p(y|x) = g(y)
p(x,y)=f(x)g(y) p(y∣x)=g(y)
只需要验证它们能写成只依赖于某个变元的函数即可。
对于两个连续型随机变量,如果他们相互独立,放在一起的随机向量就是连续型随机向量。
P
(
X
∈
A
,
Y
∈
B
)
=
P
(
X
∈
A
)
P
(
Y
∈
B
)
=
∫
p
(
x
)
1
A
d
x
∫
p
(
y
)
1
B
d
y
=
∫
∫
p
(
x
,
y
)
1
A
1
B
d
x
d
y
P(X\in A,Y\in B) = P(X\in A)P(Y\in B) = \int p(x)1_A dx \int p(y)1_Bd y = \int\int p(x,y)1_A1_Bdxdy
P(X∈A,Y∈B)=P(X∈A)P(Y∈B)=∫p(x)1Adx∫p(y)1Bdy=∫∫p(x,y)1A1Bdxdy
独立同分布
相互独立的相同分布。independent and identically distributed = i.i.d.
两两独立
P ( X i ≤ x , X j ≤ y ) = P ( X i ≤ x ) P ( X j ≤ y ) , ∀ i ≠ j , ∀ x , y P(X_i\le x, X_j\le y) = P(X_i\le x)P(X_j\le y), \forall i \not= j,\forall x,y P(Xi≤x,Xj≤y)=P(Xi≤x)P(Xj≤y),∀i=j,∀x,y
随机向量的独立
类似可以定义两两独立、相互独立、独立同分布。
泊松分流的例子
每个虫卵以概率p独立孵化成成虫,假设一只虫产卵数X服从P ( λ ) (\lambda) (λ),求成虫数Y和死卵数Z的分布。
P ( Y = k ) = ∑ n = k ∞ P ( Y = k ∣ X = n ) P ( X = n ) = e − λ ∑ n = k ∞ λ n n ! C n k p k ( 1 − p ) n − k = e − λ p k λ k k ! ∑ n = k ∞ λ n − k ( n − k ) ! ( 1 − p ) n − k = e − λ p ( λ p ) k k ! P(Y=k) = \sum_{n=k}^\infty P(Y=k|X=n)P(X=n) = e^{-\lambda}\sum_{n=k}^\infty\dfrac{\lambda^n}{n!}C_{n}^kp^k(1-p)^{n-k} = \dfrac{e^{-\lambda}p^k\lambda^k}{k!}\sum_{n=k}^{\infty}\dfrac{\lambda^{n-k}}{(n-k)!}(1-p)^{n-k}=e^{-\lambda p}\dfrac{(\lambda p)^k}{k!} P(Y=k)=n=k∑∞P(Y=k∣X=n)P(X=n)=e−λn=k∑∞n!λnCnkpk(1−p)n−k=k!e−λpkλkn=k∑∞(n−k)!λn−k(1−p)n−k=e−λpk!(λp)k
故 Y ∼ P ( λ p ) Y\sim P(\lambda p) Y∼P(λp),同理, Z ∼ P ( λ − λ p ) Z\sim P(\lambda-\lambda p) Z∼P(λ−λp).
一个经典的例子。
随机变量的函数及其分布
基本概念
一个从实数映到实数的函数,可以让映射(随机变量)X成为f(X),复合映射,成为新的随机变量。而需要满足的条件是这个函数是一个 B o r e l Borel Borel函数。
Borel函数
定义:任意
B
o
r
e
l
Borel
Borel集的原像是
B
o
r
e
l
Borel
Borel集。(类似于开集的原像是开集)
f
−
1
(
B
)
∈
B
,
∀
B
∈
B
.
f^{-1}(B)\in \mathcal B,\forall B\in \mathcal B.
f−1(B)∈B,∀B∈B.
可以拓展出从
n
n
n维到
m
m
m维的borel函数。
f
(
X
)
f(X)
f(X)是一个随机变量等价于
{
f
(
X
)
∈
B
}
∈
F
,
∀
B
∈
B
⟺
{
X
∈
f
−
1
(
B
)
}
∈
F
\{f(X)\in B\}\in \mathcal F,\forall B\in \mathcal B \iff \{X\in f^{-1}(B)\}\in \mathcal F
{f(X)∈B}∈F,∀B∈B⟺{X∈f−1(B)}∈F
即
f
f
f是一个
b
o
r
e
l
borel
borel函数。
同分布的随机变量,经过同一个borel函数作用得到的新随机变量同分布。
新随机变量的分布
如果是离散型,经过
b
o
r
e
l
borel
borel函数
f
f
f作用后依然是离散型随机变量。
P
(
Y
=
y
j
)
=
∑
i
:
f
(
x
i
)
=
y
j
p
i
.
P(Y=y_j) = \sum_{i:f(x_i)=y_j} p_i.
P(Y=yj)=i:f(xi)=yj∑pi.
连续型:
如果f严格单调,存在反函数
x
=
g
(
y
)
∈
C
1
x=g(y)\in C^1
x=g(y)∈C1:
p
X
(
x
)
∣
d
x
∣
=
p
y
(
y
)
∣
d
y
∣
⇒
p
y
(
y
)
=
p
X
(
x
)
1
∣
f
′
(
x
)
∣
=
p
(
y
)
(
写成y的函数
)
p_X(x)|dx| = p_y(y)|dy| \Rightarrow p_y(y) = p_X(x)\dfrac{1}{|f'(x)|} = p(y)(\textbf{写成y的函数})
pX(x)∣dx∣=py(y)∣dy∣⇒py(y)=pX(x)∣f′(x)∣1=p(y)(写成y的函数)
如果多段严格单调,可以分别累加:
p
Y
(
y
)
=
∑
x
i
:
f
(
x
i
)
=
y
p
X
(
x
i
)
1
∣
f
′
(
x
i
)
∣
p_Y(y) = \sum_{x_i:f(x_i)=y}p_X(x_i)\dfrac{1}{|f'(x_i)|}
pY(y)=xi:f(xi)=y∑pX(xi)∣f′(xi)∣1
随机向量:
p
Y
→
(
y
→
)
=
∑
x
→
i
:
f
(
x
→
i
)
=
y
→
p
X
→
(
x
→
i
)
1
∣
d
y
→
/
d
x
→
∣
.
p_{\overrightarrow Y}(\overrightarrow y) = \sum_{\overrightarrow x_i:f(\overrightarrow x_i)=\overrightarrow y}p_{\overrightarrow X}(\overrightarrow x_i)\dfrac{1}{|d\overrightarrow y/d\overrightarrow x|}.
pY(y)=xi:f(xi)=y∑pX(xi)∣dy/dx∣1.
若降低维数,可以考虑补充定义法,最后积掉一个分量。
随机变量的和
p X + Y ( w ) = ∫ p X , Y ( x , w − x ) d x p_{X+Y}(w) = \int p_{X,Y}(x,w-x)dx pX+Y(w)=∫pX,Y(x,w−x)dx
如果相互独立,则
p
W
(
w
)
=
∫
p
X
(
x
)
p
Y
(
w
−
x
)
d
x
p_W(w) = \int p_X(x)p_Y(w-x)dx
pW(w)=∫pX(x)pY(w−x)dx
*顺序统计量
定义
设
X
1
,
X
2
⋯
,
X
n
X_1,X_2\cdots,X_n
X1,X2⋯,Xn是一组iid的连续型随机变量,密度函数为
p
(
x
)
p(x)
p(x),分布函数为
F
(
x
)
F(x)
F(x),则
X
(
1
)
=
s
m
a
l
l
e
s
t
o
f
X
1
,
⋯
,
X
n
X
(
2
)
=
s
e
c
o
n
d
s
m
a
l
l
e
s
t
o
f
X
1
,
⋯
,
X
n
⋯
X
(
n
)
=
l
a
r
g
e
s
t
o
f
X
1
,
⋯
,
X
n
X_{(1)} = smallest\ of\ X_1,\cdots,X_n\\ X_{(2)} = second\ smallest\ of\ X_1,\cdots, X_n\\ \cdots\\ X_{(n)} = largest\ of\ X_1,\cdots,X_n
X(1)=smallest of X1,⋯,XnX(2)=second smallest of X1,⋯,Xn⋯X(n)=largest of X1,⋯,Xn
给定一个
ω
\omega
ω,可以得到一组
(
X
(
1
)
,
⋯
,
X
(
n
)
)
(X_{(1)},\cdots,X_{(n)})
(X(1),⋯,X(n))且取值空间为
X
(
1
)
≤
X
(
2
)
≤
⋯
≤
X
(
n
)
X_{(1)}\le X_{(2)}\le\cdots \le X_{(n)}
X(1)≤X(2)≤⋯≤X(n),下面研究这个顺序统计量作为随机向量,它的分布。
联合分布
p X ( 1 ) , ⋯ , X ( n ) ( x 1 , x 2 , ⋯ , x n ) = n ! p ( x 1 ) p ( x 2 ) ⋯ p ( x n ) p_{X_{(1)},\cdots,X_{(n)}}(x_1,x_2,\cdots,x_n) = n!p(x_1)p(x_2)\cdots p(x_n) pX(1),⋯,X(n)(x1,x2,⋯,xn)=n!p(x1)p(x2)⋯p(xn)
建立直观即可:顺序统计量们取到一组值 ( x 1 , ⋯ , x n ) (x_1,\cdots,x_n) (x1,⋯,xn),原来的随机变量 X 1 , ⋯ , X n X_1,\cdots,X_n X1,⋯,Xn可以有 n ! n! n!种排列方式去取得它们。
边缘分布
针对于某个特定的顺序统计量的边缘分布:
p
X
(
j
)
(
x
)
=
n
!
(
j
−
1
)
!
(
n
−
j
)
!
[
F
(
x
)
]
j
−
1
[
1
−
F
(
x
)
]
n
−
j
p
(
x
)
p_{X_{(j)}}(x) = \dfrac{n!}{(j-1)!(n-j)!}[F(x)]^{j-1}[1-F(x)]^{n-j}p(x)
pX(j)(x)=(j−1)!(n−j)!n![F(x)]j−1[1−F(x)]n−jp(x)
同样可以建立直观:前面的系数是一个多项分布,考虑
X
(
j
)
X_{(j)}
X(j)在
x
x
x点处的密度,等价于
X
1
,
⋯
,
X
n
X_1,\cdots,X_n
X1,⋯,Xn中有
j
−
1
j-1
j−1个取到小于
x
x
x,
n
−
j
n-j
n−j个取到大于
x
x
x,剩下一个位于
x
x
x。然后乘以这几块对应的密度累积即可。
同理可以有:
p
X
(
i
)
,
X
(
j
)
(
x
i
,
x
j
)
=
n
!
(
i
−
1
)
!
(
j
−
i
−
1
)
!
(
n
−
j
)
!
[
F
(
x
i
)
]
i
−
1
[
F
(
x
j
)
−
F
(
x
i
)
]
j
−
i
−
1
[
1
−
F
(
x
j
)
]
n
−
j
p
(
x
i
)
p
(
x
j
)
f
o
r
a
l
l
(
x
i
<
x
j
)
p_{X_{(i)},X_{(j)}}(x_i,x_j) = \dfrac{n!}{(i-1)!(j-i-1)!(n-j)!}[F(x_i)]^{i-1}[F(x_j)-F(x_i)]^{j-i-1}[1-F(x_j)]^{n-j}p(x_i)p(x_j)\\ for\ all\ (x_i<x_j)
pX(i),X(j)(xi,xj)=(i−1)!(j−i−1)!(n−j)!n![F(xi)]i−1[F(xj)−F(xi)]j−i−1[1−F(xj)]n−jp(xi)p(xj)for all (xi<xj)
*这个可以应用到求极差的分布。
可交换性
先由这n个顺序统计量生成n个新的随机变量:
Y
1
=
X
(
1
)
Y
i
=
X
(
i
)
−
X
(
i
−
1
)
,
i
=
2
,
⋯
,
n
Y_1 = X_{(1)}\\ Y_i = X_{(i)} - X_{(i-1)},\ \ i=2,\cdots,n\\
Y1=X(1)Yi=X(i)−X(i−1), i=2,⋯,n
若
X
1
,
⋯
,
X
n
X_1,\cdots,X_n
X1,⋯,Xn服从
(
0
,
1
)
(0,1)
(0,1)上的均匀分布,则这
n
n
n个随机变量是可交换的。
p
Y
1
,
⋯
,
Y
n
(
y
1
,
⋯
,
y
n
)
=
p
X
(
1
)
,
⋯
,
X
(
n
)
(
y
1
,
⋯
,
y
1
+
⋯
+
y
n
)
=
n
!
(
0
<
y
1
<
1
,
i
=
1
,
⋯
,
n
,
y
1
+
⋯
+
y
n
<
1
)
p_{Y_1,\cdots,Y_n}(y_1,\cdots,y_n)=p_{X_{(1)},\cdots,X_{(n)}}(y_1,\cdots,y_1+\cdots+y_n)=n!\ \ (0<y_1<1,i=1,\cdots,n,y_1+\cdots+y_n<1)
pY1,⋯,Yn(y1,⋯,yn)=pX(1),⋯,X(n)(y1,⋯,y1+⋯+yn)=n! (0<y1<1,i=1,⋯,n,y1+⋯+yn<1)
注意,利用了这个线性变换的jacobi行列式为1.
由于密度函数对 y 1 , ⋯ , y n y_1,\cdots,y_n y1,⋯,yn都是对称的,因此这是一个可交换随机向量。
再添加一个随机变量
Y
n
+
1
=
1
−
X
(
n
)
Y_{n+1} = 1-X_{(n)}
Yn+1=1−X(n)(依然在均匀分布的条件下讨论),则考虑
p
Y
1
,
⋯
,
Y
n
−
1
,
Y
n
+
1
(
y
1
,
⋯
,
y
n
−
1
,
y
n
)
=
p
(
y
1
,
⋯
,
y
1
+
⋯
+
y
n
−
1
,
1
−
y
n
)
=
n
!
p_{Y_1,\cdots,Y_{n-1},Y_{n+1}}(y_1,\cdots,y_{n-1},y_n) = p(y_1,\cdots,y_1+\cdots+y_{n-1},1-y_n)=n!\\
pY1,⋯,Yn−1,Yn+1(y1,⋯,yn−1,yn)=p(y1,⋯,y1+⋯+yn−1,1−yn)=n!
满足的条件与之前的相同,这两个分布是相同的。因此
V
=
(
Y
1
,
⋯
,
Y
n
)
=
d
(
Y
1
,
⋯
,
Y
n
−
1
,
Y
n
+
1
)
=
W
V=(Y_1,\cdots,Y_n) \overset{d}=(Y_1,\cdots,Y_{n-1},Y_{n+1}) = W
V=(Y1,⋯,Yn)=d(Y1,⋯,Yn−1,Yn+1)=W
于是就有
(
Y
1
,
⋯
,
Y
n
+
1
)
=
d
(
Y
σ
1
,
⋯
,
Y
σ
n
+
1
)
(Y_1,\cdots,Y_{n+1})\overset{d}=(Y_{\sigma_1},\cdots,Y_{\sigma_{n+1}})
(Y1,⋯,Yn+1)=d(Yσ1,⋯,Yσn+1)