jensen不等式_无穷维统计模型的数学基础(2.2.1):高斯过程的 Borell–TIS 不等式...

46147398de71cf3e8417aa6c5f02d98c.png

这本书第二章虽然叫 Gaussian Processes,但它重点并不是大家都懂的那些什么核什么 posterior 什么预测等等,而是主要放在高斯过程的各种 concentration 上。菜名包括:

  • Borell–TIS Inequality
  • Gaussian Isoperimetric Inequality
  • Dudley's Metric Entropy Bound
  • Gaussian Comparison Inequality
  • The Log-Sobolev Inequality

我个人对推 bound 兴趣不如调包大但又觉得如果自己要声称懂机器学习的话不了解 concentration 不等式(里面的名词)好像不太行……正是这种虚荣心给了我动力。这一节先说 Borell–TIS 不等式,后面的随缘。


高斯过程的定义

只是简单列一下。我们至少可以从三个角度看高斯过程

  • 教科书的定义:对任意
    是服从
    维正态分布的随机变量;
  • 由 Kolmogorov extension theorem,我们可以把
    看成是无穷维的正态分布,它有均值函数
    和对称且半正定的协方差函数
    。下面我们都假设
  • 上一节最后我们提到,取值在可分 Banach 空间
    上的随机变量
    可以看成一个随机过程:对
    ,所以直观上我们可以认为指标集
    。于是跟教科书定义一样,对任意
    是服从
    维正态分布的随机变量。

高斯过程的一些简单性质

列两个我看得懂的性质。

0-1律

70ecd2c5f49a98566f696b46ba75e176.png

上实函数组成的线性空间)

这个我觉得很好理解,因为高斯过程本身就有某种线性性(

的分布一样,其中
都是
的 independent copy),所以对
的某个线性子空间
要么完全在
中要么完全不在
中。具体证明倒是需要一些小技巧不过感觉不很重要。

然后我们就可以考虑一些有代表性的子空间了,比如说有

高斯过程的可分性

可分性向来是我们从可数过渡到不可数的工具。这里先补充一下随机过程可分性的定义,抄:

e73b4465545eb1c6964f24359bc66418.png

(我的理解:随机过程的可分性可以看成某种“几乎”可分性:可分体现在指标集

的可分性,“几乎”体现在样本空间
的满足
的子集
上。对于随机过程我们一般也只能做到“几乎”,所以这个定义是合理的)

在可分性上,高斯过程的优越性体现在,

的可分性跟
的可分性在某种意义上等价:如果仿照极化恒等式,定义
上的度量
,那么

e5c68757874b972bbe69667000cb92f8.png

由随机过程可分性的定义可得;
的话,
本身就含有
的信息,所以结论其实也并不令人惊讶;证明是构造性的:设
-稠密子集
。对于每一个
,我们以每个
为中心作一个半径为
的小球
,并把这些重叠的小球改造成
的一个划分;划分中的元素长这样(就是把重叠的部分去掉):

因为

的划分,所以每个
都唯一对应一个
;令
,则由 Chebyshev 不等式:

因为

,由 Borel-Cantelli 引理得

然后考虑

,说明
组成的集合有测度1且可分即可。

插入背景:Sub-Gaussian 分布

我们知道正态分布

的矩母函数是
;据此定义 Sub-Gaussian 分布为矩母函数满足
的分布。对任意
,由 Markov 不等式

,得
。 另一方面,

因此有

——跟正态分布有同样的尾分布。事实上,这个形式的尾分布也可以作为 Sub-Gaussian 分布的等价定义。

更多关于 Sub-Gaussian 分布的性质可以参考比如 High-Dimensional Probability 的 2.5 和 2.6 节。Sub-Gaussian 分布的优点至少有二:它包含了正态分布、Bernoulli分布、和所有有界分布;一些经典的 concentration 不等式(如 Hoeffding's inequality)可以比较容易地推广到 Sub-Gaussian 分布的随机变量上(毕竟推 bound 时用起来跟正态分布差不多)。所以在 concentration 不等式这一块上,Sub-Gaussian 分布应该是一个比较基础的研究对象。

(HDP 里第二章还讲了尾分布满足

的 Sub-exponential 分布,并提到 Sub-Gaussian 分布和 Sub-exponential 分布的随机变量在赋上范数后都能被放进某种 Orlicz 空间中,然后利用空间的性质去证明一些东西。不过我并不很懂这个所以就不展开了)

另外我们可以把 Sub-Gaussian 随机变量推广为 Sub-Gaussian 随机过程:

c8efdcd625494859306d89dacae4816d.png

Borell–TIS 不等式

Borell–TIS 不等式形如文章配图,它是关于高斯过程的

范数的一个 concentration。重贴一下:

其中

是 0 均值的可分高斯过程,
;书中证明了
可取为
,并提到其实可取到更紧的1。有了前面对 Sub-Gaussian 的了解,我们知道 Borell–TIS 不等式讲的是
的 Sub-Gaussianity,并且尾分布的形状由整个过程中的最大方差决定。我们先从有限维出发,为此需要引理

0b26061b81e1cba033ccd679fcf847cf.png

我们先暂时跳过这个引理的证明,看一下之后的步骤。记

并取
,那么
是 Lipschitz 的,且对几乎所有固定的
(第
个元素是
,其余为0),从而
,这跟
分布相同,其中
是服从标准正态分布的随机变量,因此由
的单调性有
。之后就比较套路了,令
,然后利用 Markov 不等式:

(因为

,再利用正态分布的 MGF),最后令
使得指数上的二次函数取最小值即可。

之后就是从有限维过渡到无穷维:自然是先取

的一个稠密可数子集
,然后令上面的
;由
的连续性、以及单调收敛定理即可证明连续的版本。这里面有些小细节,首先我们要假定
(由0-1律,即假定
),然后在实施上面的步骤前要先证明

现在回到引理

的证明。首先引入(神之)变换
,则有

因此(Jensen 不等式 + Fubini 定理)

e46fd2c01c4edd01b0316e0ca3a218c3.png

(这里把

都合写成

然后根据链式法则

,并(运用超绝的观察力)注意到
的均值和方差都跟
的一样,且
相互独立,即
,因此它俩的联合分布跟
的联合分布一样,所以有

(跟
无关),证完。

(细节上要用到 Rademacher's theorem:开集上的 Lipschitz 函数几乎处处可导)


一个应用

Borell-TIS 不等式是关于(可分0均值)高斯过程的

或者说
范数在其均值附近的 concentration 不等式,所以它有时候可以用于证明一些跟
范数相关的consistency。在
Fundamentals of Nonparametric Bayesian Inference 的 7.2.4 节有如下一般的关于随机过程后验分布的 consistency 结果(搜的,没仔细看证明)

a6c7d0878d7a8d124648763e44f38ca5.png

那个

上的
-Hölder 空间,
是对应的范数。附定义:

b7a9a2b325d9ae36d99d160116dccf4b.png

由 Borell-TIS 不等式,某些高斯过程的后验分布的 consistency 就是定理中

的特例(某些=“如果这个作为先验分布的0均值高斯过程的样本空间落在
的某个可分子空间上的话”;另外注意到
,所以这时依然有
)。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值