这本书第二章虽然叫 Gaussian Processes,但它重点并不是大家都懂的那些什么核什么 posterior 什么预测等等,而是主要放在高斯过程的各种 concentration 上。菜名包括:
- Borell–TIS Inequality
- Gaussian Isoperimetric Inequality
- Dudley's Metric Entropy Bound
- Gaussian Comparison Inequality
- The Log-Sobolev Inequality
我个人对推 bound 兴趣不如调包大但又觉得如果自己要声称懂机器学习的话不了解 concentration 不等式(里面的名词)好像不太行……正是这种虚荣心给了我动力。这一节先说 Borell–TIS 不等式,后面的随缘。
高斯过程的定义
只是简单列一下。我们至少可以从三个角度看高斯过程
- 教科书的定义:对任意
,是服从维正态分布的随机变量;
- 由 Kolmogorov extension theorem,我们可以把
看成是无穷维的正态分布,它有均值函数和对称且半正定的协方差函数。下面我们都假设;
- 上一节最后我们提到,取值在可分 Banach 空间
上的随机变量可以看成一个随机过程:对,,所以直观上我们可以认为指标集。于是跟教科书定义一样,对任意,是服从维正态分布的随机变量。
高斯过程的一些简单性质
列两个我看得懂的性质。
0-1律
(
这个我觉得很好理解,因为高斯过程本身就有某种线性性(
然后我们就可以考虑一些有代表性的子空间了,比如说有
高斯过程的可分性
可分性向来是我们从可数过渡到不可数的工具。这里先补充一下随机过程可分性的定义,抄:
(我的理解:随机过程的可分性可以看成某种“几乎”可分性:可分体现在指标集
在可分性上,高斯过程的优越性体现在,
因为
因为
然后考虑
插入背景:Sub-Gaussian 分布
我们知道正态分布
取
因此有
更多关于 Sub-Gaussian 分布的性质可以参考比如 High-Dimensional Probability 的 2.5 和 2.6 节。Sub-Gaussian 分布的优点至少有二:它包含了正态分布、Bernoulli分布、和所有有界分布;一些经典的 concentration 不等式(如 Hoeffding's inequality)可以比较容易地推广到 Sub-Gaussian 分布的随机变量上(毕竟推 bound 时用起来跟正态分布差不多)。所以在 concentration 不等式这一块上,Sub-Gaussian 分布应该是一个比较基础的研究对象。
(HDP 里第二章还讲了尾分布满足
另外我们可以把 Sub-Gaussian 随机变量推广为 Sub-Gaussian 随机过程:
Borell–TIS 不等式
Borell–TIS 不等式形如文章配图,它是关于高斯过程的
其中
我们先暂时跳过这个引理的证明,看一下之后的步骤。记
(因为
之后就是从有限维过渡到无穷维:自然是先取
现在回到引理
因此(Jensen 不等式 + Fubini 定理)
(这里把
然后根据链式法则
(细节上要用到 Rademacher's theorem:开集上的 Lipschitz 函数几乎处处可导)
一个应用
Borell-TIS 不等式是关于(可分0均值)高斯过程的
那个
由 Borell-TIS 不等式,某些高斯过程的后验分布的 consistency 就是定理中