jensen不等式_无穷维统计模型的数学基础（2.2.1）：高斯过程的 Borell–TIS 不等式...

最新推荐文章于 2024-02-05 22:15:57 发布

weixin_39786534

最新推荐文章于 2024-02-05 22:15:57 发布

阅读量389

点赞数

文章标签： jensen不等式

这本书第二章虽然叫 Gaussian Processes，但它重点并不是大家都懂的那些什么核什么 posterior 什么预测等等，而是主要放在高斯过程的各种 concentration 上。菜名包括：

Borell–TIS Inequality
Gaussian Isoperimetric Inequality
Dudley's Metric Entropy Bound
Gaussian Comparison Inequality
The Log-Sobolev Inequality

我个人对推 bound 兴趣不如调包大但又觉得如果自己要声称懂机器学习的话不了解 concentration 不等式（里面的名词）好像不太行……正是这种虚荣心给了我动力。这一节先说 Borell–TIS 不等式，后面的随缘。

高斯过程的定义

只是简单列一下。我们至少可以从三个角度看高斯过程

：

教科书的定义：对任意
，

是服从

维正态分布的随机变量；
由 Kolmogorov extension theorem，我们可以把
看成是无穷维的正态分布，它有均值函数

和对称且半正定的协方差函数

。下面我们都假设

；
上一节最后我们提到，取值在可分 Banach 空间
上的随机变量

可以看成一个随机过程：对

，

，所以直观上我们可以认为指标集

。于是跟教科书定义一样，对任意

，

是服从

维正态分布的随机变量。

高斯过程的一些简单性质

列两个我看得懂的性质。

0-1律

（

是

上实函数组成的线性空间）

这个我觉得很好理解，因为高斯过程本身就有某种线性性（

跟

的分布一样，其中

和

都是

的 independent copy），所以对

的某个线性子空间

，

要么完全在

中要么完全不在

中。具体证明倒是需要一些小技巧不过感觉不很重要。

然后我们就可以考虑一些有代表性的子空间了，比如说有

高斯过程的可分性

可分性向来是我们从可数过渡到不可数的工具。这里先补充一下随机过程可分性的定义，抄：

（我的理解：随机过程的可分性可以看成某种“几乎”可分性：可分体现在指标集

的可分性，“几乎”体现在样本空间

的满足

的子集

上。对于随机过程我们一般也只能做到“几乎”，所以这个定义是合理的）

在可分性上，高斯过程的优越性体现在，

的可分性跟

的可分性在某种意义上等价：如果仿照极化恒等式，定义

上的度量

，那么

由随机过程可分性的定义可得；

的话，

本身就含有

的信息，所以结论其实也并不令人惊讶；证明是构造性的：设

有

-稠密子集

。对于每一个

，我们以每个

为中心作一个半径为

的小球

，并把这些重叠的小球改造成

的一个划分；划分中的元素长这样（就是把重叠的部分去掉）：

因为

是

的划分，所以每个

都唯一对应一个

；令

，则由 Chebyshev 不等式：

因为

，由 Borel-Cantelli 引理得

然后考虑

，说明

组成的集合有测度1且可分即可。

插入背景：Sub-Gaussian 分布

我们知道正态分布

的矩母函数是

；据此定义 Sub-Gaussian 分布为矩母函数满足

的分布。对任意

，由 Markov 不等式

取

，得

。另一方面，

因此有

——跟正态分布有同样的尾分布。事实上，这个形式的尾分布也可以作为 Sub-Gaussian 分布的等价定义。

更多关于 Sub-Gaussian 分布的性质可以参考比如 High-Dimensional Probability 的 2.5 和 2.6 节。Sub-Gaussian 分布的优点至少有二：它包含了正态分布、Bernoulli分布、和所有有界分布；一些经典的 concentration 不等式（如 Hoeffding's inequality）可以比较容易地推广到 Sub-Gaussian 分布的随机变量上（毕竟推 bound 时用起来跟正态分布差不多）。所以在 concentration 不等式这一块上，Sub-Gaussian 分布应该是一个比较基础的研究对象。

（HDP 里第二章还讲了尾分布满足

的 Sub-exponential 分布，并提到 Sub-Gaussian 分布和 Sub-exponential 分布的随机变量在赋上范数后都能被放进某种 Orlicz 空间中，然后利用空间的性质去证明一些东西。不过我并不很懂这个所以就不展开了）

另外我们可以把 Sub-Gaussian 随机变量推广为 Sub-Gaussian 随机过程：