在随机规划的书籍或论文中,时常能见到 almost surely convergence (几乎必然收敛)这个名词。在这篇博客里,我总结整理一下这个名词的相关知识点。
这篇博文基于维基百科的条目 almost surely 以及国外一本概率教材的 线上资料.
1. almost surely
几乎必然,是概率论或测度论里面经常能看到的一个专业词汇。
如果一个事件发生的概率为 1,在概率论或测度论中我们说这个事件几乎必然(almost surely)发生。
刚开始有点不好理解,为什么要加一个几乎必然,因为这完全基于概率来描述一个事件是否发生。举例:
- 将一个硬币抛无限次,至少出现一个正面这个事件几乎必然发生。因为 P { 至少出现一个正面 } = lim n → ∞ 1 − ( 1 2 ) n = 1 P\{至少出现一个正面\}=\lim\limits_{n\rightarrow \infty}1-(\frac{1}{2})^n=1 P{至少出现一个正面}=n→∞lim1−(21)n=1
- 假设我们排队等待的时间符合指数分布,那么等待时间小于某个时间我们可以根据指数分布得到一个概率。然而,由于指数分布为连续分布,等待时间恰好为某个时间的概率为 0。因此,排队等待时间为 1 分钟这样的事件几乎必然不发生。(从实际角度看,排队等待时间刚好为 1 分钟是可能的,但是由于假设等待时间为指数分布,从概率角度上讲,等待时间刚好为 1 分钟的概率为 0)
2. almost surely convergence
随机规划算法的收敛性一般都说 almost surely convergence, 简称 a . s . a.s. a.s., 定义:
一系列随机变量 X 1 , X 2 , … , X_1,X_2,\dots, X1,X2,…, 几乎必然收敛于随机变量 X X X,表示为 X n → a . s . X X_n \xrightarrow{a.s.} X Xna.s.X,如果当 n n n 趋于无穷大时,随机变量 X n X_n Xn 与 X X X 相等的概率为 1, 即
P { lim n → ∞ X n = X } = 1 P\{\lim\limits_{n\rightarrow \infty} X_n=X\}=1 P{n→∞limXn=X}=1
- 两个随机变量相等,意味着这两个随机变量所有可能取值的概率都相等
在测度论中,任何一个随机变量都有一个样本空间
S
=
{
s
1
,
s
2
,
…
}
S=\{s_1,s_2,\dots\}
S={s1,s2,…},随机变量可以视作样本空间的函数, 例如随机变量
X
n
X_n
Xn 在样本为
s
i
s_i
si 时取值为
x
n
i
x_{ni}
xni,可以表示为
X
n
(
s
i
)
=
x
n
i
X_n(s_i)=x_{ni}
Xn(si)=xni
举例:抛一次硬币可能有正面(H)、反面(T)两个结果,样本空间为 { H , T } \{H, T\} {H,T},一个随机变量 X n X_n Xn 可以定义为:
X n ( s ) = { 1 n + 1 if s = H 1 if s ≠ H X_n(s)=\begin{cases} \frac{1}{n+1}\quad &\text{if }{s=H}\\ 1 &\text{if }{s\neq H} \end{cases} Xn(s)={n+111if s=Hif s=H
2.1 一个例子
一个样本空间
S
=
[
0
,
1
]
S=[0,1]
S=[0,1],并且样本在 0 到 1 之间均匀分布,定义一个随机变量序列
{
X
n
,
n
=
1
,
2
,
…
}
\{X_n,n=1,2,\dots\}
{Xn,n=1,2,…}:
X
n
(
s
)
=
{
1
0
≤
s
<
n
+
1
2
n
0
otherwise
X_n(s)=\begin{cases} 1\quad &0\leq s<\frac{n+1}{2n}\\ 0 & \text{otherwise} \end{cases}
Xn(s)={100≤s<2nn+1otherwise
定义另外一个随机变量
X
X
X:
.
X
(
s
)
=
{
1
0
≤
s
<
1
2
0
otherwise
X(s)=\begin{cases} 1\quad &0\leq s<\frac{1}{2}\\ 0 & \text{otherwise} \end{cases}
X(s)={100≤s<21otherwise
求证 lim X n → a . s . X \lim X_n\xrightarrow{a.s.} X limXna.s.X.
根据定义证明。
证明:
我们需要证明 P { lim n → ∞ X n = X } = 1 P\{\lim\limits_{n\rightarrow\infty}X_n=X\}=1 P{n→∞limXn=X}=1.
显然,当
s
>
1
/
2
s> 1/2
s>1/2 时,
X
n
=
X
=
0
X_n=X=0
Xn=X=0;
当
0
≤
s
<
1
/
2
0\leq s<1/2
0≤s<1/2 时,
n
→
∞
n\rightarrow \infty
n→∞ 情况下,
n
+
1
2
n
→
1
2
\frac{n+1}{2n}\rightarrow \frac{1}{2}
2nn+1→21,因此,
X
n
=
X
=
1
X_n=X=1
Xn=X=1;
当
s
=
1
/
2
s= 1/2
s=1/2 时,
lim
n
→
∞
X
n
(
1
/
2
)
=
1
,
X
(
1
/
2
)
=
0
\lim\limits_{n\rightarrow \infty}X_n(1/2)=1, X(1/2)=0
n→∞limXn(1/2)=1,X(1/2)=0, 因此
X
n
≠
X
X_n\neq X
Xn=X;
结合以上两种情况, P { lim n → ∞ X n = X } = P { s ∈ [ 0 , 1 / 2 ) ∪ ( 1 / 2 , 1 ] } = 1 / 2 + 1 / 2 = 1 P\{\lim\limits_{n\rightarrow\infty}X_n=X\}=P\{s\in[0,1/2)\cup(1/2, 1]\}=1/2+1/2=1 P{n→∞limXn=X}=P{s∈[0,1/2)∪(1/2,1]}=1/2+1/2=1.
2.2 定理1
对于一系列随机变量 X 1 , X 2 , … X_1, X_2,\dots X1,X2,…, 对于任意 ϵ > 0 \epsilon>0 ϵ>0, 都有
∑ n = 1 ∞ P ( ∣ X n − X ∣ > ϵ ) < ∞ , \sum\limits_{n=1}^\infty P(|X_n-X|>\epsilon)<\infty, n=1∑∞P(∣Xn−X∣>ϵ)<∞,
那么 X n → a . s . X X_n\xrightarrow{a.s.} X Xna.s.X.
这个定理是判断几乎必然收敛的充分条件。
2.3 定理2
对于一系列随机变量 X 1 , X 2 , … X_1, X_2,\dots X1,X2,…, 对于任意 ϵ > 0 \epsilon>0 ϵ>0, 定义一个新的事件
A m = { ∣ X n − X ∣ < ϵ } , for all n ≥ m A_m=\{|X_n-X|<\epsilon\},\quad\text{for all } n\geq m Am={∣Xn−X∣<ϵ},for all n≥m
那么 X n → a . s . X X_n\xrightarrow{a.s.} X Xna.s.X 当且仅当 lim m → ∞ P ( A m ) = 1 \lim\limits_{m\rightarrow \infty}P(A_m)=1 m→∞limP(Am)=1.
该定理为充分必要条件。
- 看到一些论文证明一些随机规划算法的几乎必然收敛性,还是挺有难度的,一般还会用到高级概率论中的其他定理或性质