按概率收敛与几乎处处收敛

最新推荐文章于 2024-07-28 10:16:39 发布

路虽远在路上

最新推荐文章于 2024-07-28 10:16:39 发布

阅读量2.3w

点赞数 13

分类专栏：机器学习概率论与数理统计

本文链接：https://blog.csdn.net/u010185894/article/details/71156151

版权

机器学习同时被 2 个专栏收录

12 篇文章 0 订阅

订阅专栏

概率论与数理统计

1 篇文章 0 订阅

订阅专栏

#注意
以下内容仅作为个人笔记，初学者请不要参考本篇内容，欢迎学过的同学指正错误。
#正文
首先给出两种收敛的定义。对于一个随机变量序列 $\{\hat \theta_n(x)\}_n$ ，这个随机变量的值由随机变量 $x$ 决定。对于任意正实数 $\epsilon$ ，如果存在一个随机变量 $\theta(x)$ 使下式成立:
$\lim_{n\to \infty}{\rm Pr}(x,|\hat\theta_n(x)-\theta(x)|<\epsilon)=1,$
则称序列 $\{\hat\theta_n(x)\}_n$ 依概率收敛到随机变量 $\theta(x)$ 。

如果对于任意正实数 $\epsilon$ ，如果存在一个随机向量 $\theta(x)$ 使下式成立:
${\rm Pr}(x,\lim_{n\to \infty}|\hat\theta_n(x)-\theta(x)|<\epsilon)=1,$
则称序列 $\{\hat\theta_n(x)\}_n$ 几乎处处收敛到随机变量 $\theta(x)$ 。

直观来说，在 $n$ 大到一定程度，前者的含义是 $\hat\theta_n(x)$ 与 $\theta(x)$ 的距离小于 $\epsilon$ 的概率收敛到 $1$ 上；后者的含义是， $\hat\theta_n(x)$ 与 $\theta(x)$ 的距离以 $100\%$ 的概率在 $\epsilon$ 以内。准确来说，几乎处处收敛其实并不要求在 $x$ 的取值范围内所有的取值都使得 $\hat\theta_n(x)$ 与 $\theta(x)$ 的距离在 $\epsilon$ 以内，要理解这一点需要测度论的知识，我还没接触过这方面的知识，但有一个例子很好理解：对于 $x\in [0,1]$ ，如果只有 $x = 1$ 使得 $|\hat\theta_n(x)-\theta(x)|\ge\epsilon$ 成立，我们仍然可以说 $\{\hat\theta_n(x)\}_n$ 几乎处处收敛，这是因为 ${\rm Pr}(x=1)=0$ ，因而 ${\rm Pr}(x\in [0,1))=1$ 。

具体来说，这两种收敛的区别是什么呢？对于足够大的 $n$ 来说，前者不需要满足 $|\hat\theta_n(x)-\theta(x)|<\epsilon$ 在 $x$ 所有的取值范围上成立，也就是可能存在一个区间 $[x_0, x_0+\mathcal{O}(g(x))]$ 使得 $|\hat\theta_n(x)-\theta(x)|\ge\epsilon$ 成立，而后者，如上一段所说的，要求这个不等式最多只能在 $x$ 取某一个值 $x_0$ 上成立。

如果仍然难以理解，这里可以举例子说明。设随机变量 $x$ 是在区间 $[0, 1]$ 上的均匀分布，定义关于 $x$ 的随机变量序列为：
$\hat\theta_n(x) = x+x^n.$
定义随机变量：
$\theta(x)=x.$
可以发现这个随机变量只在 $x = 1$ 时才有 $|\hat\theta_n(x)-\theta(x)|\ge\epsilon$ 成立，因此是几乎处处收敛。