#注意
以下内容仅作为个人笔记,初学者请不要参考本篇内容,欢迎学过的同学指正错误。
#正文
首先给出两种收敛的定义。对于一个随机变量序列
{
θ
^
n
(
x
)
}
n
\{\hat \theta_n(x)\}_n
{θ^n(x)}n,这个随机变量的值由随机变量
x
x
x 决定。对于任意正实数
ϵ
\epsilon
ϵ,如果存在一个随机变量
θ
(
x
)
\theta(x)
θ(x) 使下式成立:
lim
n
→
∞
P
r
(
x
,
∣
θ
^
n
(
x
)
−
θ
(
x
)
∣
<
ϵ
)
=
1
,
\lim_{n\to \infty}{\rm Pr}(x,|\hat\theta_n(x)-\theta(x)|<\epsilon)=1,
n→∞limPr(x,∣θ^n(x)−θ(x)∣<ϵ)=1,
则称序列
{
θ
^
n
(
x
)
}
n
\{\hat\theta_n(x)\}_n
{θ^n(x)}n 依概率收敛到随机变量
θ
(
x
)
\theta(x)
θ(x)。
如果对于任意正实数
ϵ
\epsilon
ϵ,如果存在一个随机向量
θ
(
x
)
\theta(x)
θ(x) 使下式成立:
P
r
(
x
,
lim
n
→
∞
∣
θ
^
n
(
x
)
−
θ
(
x
)
∣
<
ϵ
)
=
1
,
{\rm Pr}(x,\lim_{n\to \infty}|\hat\theta_n(x)-\theta(x)|<\epsilon)=1,
Pr(x,n→∞lim∣θ^n(x)−θ(x)∣<ϵ)=1,
则称序列
{
θ
^
n
(
x
)
}
n
\{\hat\theta_n(x)\}_n
{θ^n(x)}n 几乎处处收敛到随机变量
θ
(
x
)
\theta(x)
θ(x)。
直观来说,在 n n n 大到一定程度,前者的含义是 θ ^ n ( x ) \hat\theta_n(x) θ^n(x) 与 θ ( x ) \theta(x) θ(x) 的距离小于 ϵ \epsilon ϵ 的概率收敛到 1 1 1 上;后者的含义是, θ ^ n ( x ) \hat\theta_n(x) θ^n(x) 与 θ ( x ) \theta(x) θ(x) 的距离以 100 % 100\% 100% 的概率在 ϵ \epsilon ϵ 以内。准确来说,几乎处处收敛其实并不要求在 x x x 的取值范围内所有的取值都使得 θ ^ n ( x ) \hat\theta_n(x) θ^n(x) 与 θ ( x ) \theta(x) θ(x) 的距离在 ϵ \epsilon ϵ 以内,要理解这一点需要测度论的知识,我还没接触过这方面的知识,但有一个例子很好理解:对于 x ∈ [ 0 , 1 ] x\in [0,1] x∈[0,1],如果只有 x = 1 x=1 x=1 使得 ∣ θ ^ n ( x ) − θ ( x ) ∣ ≥ ϵ |\hat\theta_n(x)-\theta(x)|\ge\epsilon ∣θ^n(x)−θ(x)∣≥ϵ 成立,我们仍然可以说 { θ ^ n ( x ) } n \{\hat\theta_n(x)\}_n {θ^n(x)}n 几乎处处收敛,这是因为 P r ( x = 1 ) = 0 {\rm Pr}(x=1)=0 Pr(x=1)=0,因而 P r ( x ∈ [ 0 , 1 ) ) = 1 {\rm Pr}(x\in [0,1))=1 Pr(x∈[0,1))=1。
具体来说,这两种收敛的区别是什么呢?对于足够大的 n n n 来说,前者不需要满足 ∣ θ ^ n ( x ) − θ ( x ) ∣ < ϵ |\hat\theta_n(x)-\theta(x)|<\epsilon ∣θ^n(x)−θ(x)∣<ϵ 在 x x x 所有的取值范围上成立,也就是可能存在一个区间 [ x 0 , x 0 + O ( g ( x ) ) ] [x_0, x_0+\mathcal{O}(g(x))] [x0,x0+O(g(x))] 使得 ∣ θ ^ n ( x ) − θ ( x ) ∣ ≥ ϵ |\hat\theta_n(x)-\theta(x)|\ge\epsilon ∣θ^n(x)−θ(x)∣≥ϵ 成立,而后者,如上一段所说的,要求这个不等式最多只能在 x x x 取某一个值 x 0 x_0 x0 上成立。
如果仍然难以理解,这里可以举例子说明。设随机变量
x
x
x 是在区间
[
0
,
1
]
[0,1]
[0,1] 上的均匀分布,定义关于
x
x
x 的随机变量序列为:
θ
^
n
(
x
)
=
x
+
x
n
.
\hat\theta_n(x) = x+x^n.
θ^n(x)=x+xn.
定义随机变量:
θ
(
x
)
=
x
.
\theta(x)=x.
θ(x)=x.
可以发现这个随机变量只在
x
=
1
x=1
x=1 时才有
∣
θ
^
n
(
x
)
−
θ
(
x
)
∣
≥
ϵ
|\hat\theta_n(x)-\theta(x)|\ge\epsilon
∣θ^n(x)−θ(x)∣≥ϵ 成立,因此是几乎处处收敛。
对于同样的 x x x,按照另一种方法定义随机变量 θ ^ n ( x ) \hat\theta_n(x) θ^n(x) 和 θ ( x ) \theta(x) θ(x):
θ ^ 2 k + i ( x ) = 1 x ∈ [ i 2 k , i + 1 2 k ] k = 1 , 2 , 3 , . . . i = 0 , 1 , . . . , 2 k − 1 θ ( x ) = 0 \hat\theta_{2^k+i}(x)=1_{x\in [\frac{i}{2^k}, \frac{i+1}{2^k}]}\\ k=1,2,3,...\\ i=0,1,...,2^{k}-1\\ \theta(x)=0 θ^2k+i(x)=1x∈[2ki,2ki+1]k=1,2,3,...i=0,1,...,2k−1θ(x)=0
可以看到,即使
2
k
+
i
2^k+i
2k+i 的值再大,
∣
θ
^
n
(
x
)
−
θ
(
x
)
∣
≥
ϵ
|\hat\theta_n(x)-\theta(x)|\ge\epsilon
∣θ^n(x)−θ(x)∣≥ϵ 成立的概率也不会等于
0
0
0,但是他们是按概率收敛的。
#参考
几乎必然收敛和依概率收敛 by AlgorithmDog