hoeffding不等式_统计学习--详解Hoeffding不等式

引言

概率、统计和机器学习中的一个基本问题是:给定一个期望为

的随机变量
,
接近其期望的可能性有多大?更准确地说,它有多接近?

为了解决这个问题,我们可以使用一些工具来计算边界:

Hoeffding不等式是一种强大的技巧——也许是学习理论中最重要的不等式——用于限定有界随机变量和过大或过小的概率。


几个需要使用到的命题

马尔可夫不等式 Markov’s inequality

假设

是一个非负的随机变量:

证明如下:

0483197cdaab0e6ec4f8a5d0a3a63645.png

切比雪夫不等式 Chebyshev’s inequality

假设

是任何均方差
:

均方差

证明可以使用马尔可夫不等式:

0804ec699383f85da4e2e4d5896e3656.png

我们可以考虑一种特殊情况,

。此时我们定义
,则有如下不等式关系:

d5930d5d25deca588e3054fc772633ac.png

矩量母函数MGF

在统计学中,矩又被称为动差(Moment)。

矩量母函数(Moment Generating Function,简称mgf)又被称为动差生成函数

我们称

的数学期望为随机变量ξ的矩量母函数,记作
.

连续型随机变量ξ的MGF为:

,积分区间为(-∞,+∞),f(x)为ξ的概率密度函数。

离散型随机变量ξ的MGF为:

,其中连加号代表对ξ的所有取值连加,p(ξ=x)为ξ的概率分布函数。
矩量母函数 存在当且仅当上述积分(连加)极限存在。
MGF的定义引用自百度百科。

矩量母函数的例子

下面将给出几个矩量母函数的例子,并且会衍生出一些偏差不等式。

我们使用如下形式的边界:

.
C的大小依赖于Z的分布。

首先,拿经典的正态分布做例子:


第二个例子: Rademacher随机变量(随机信号变量)。

关于Rademacher分布的概率密度函数为如下:

1dff4e210cc9c242ceb109f5e0b01af3.png

对于不等式1),我们可以使用泰勒展开将指数函数展开:

值得注意的是,对于随机信号变量,当k为奇数时,

,当k为偶数时,
.

所以得到:

而对于任意自然数k,有不等式

成立,所以:

如果我们有Z为Rademacher分布:

,其中
,则
,于是结合切尔诺夫界,我们可以立即得到如下不等式:

由上式知,要是的

达到最小,只需要找到
,使得:

可以对上式关于

求偏导,得到
,代入2)中最后可以得到:

如果我们令

,可以得到更加简化的形式:

于是有

有非常高的概率使得n个独立随机符号的和基本上不大于
.

切尔诺夫边界 Chernoff bounds

我们定义Z的矩量母函数:

切尔诺夫边界使用矩量母函数(Moment generating functions)作为一种必要的方法来给出指数偏差界限

对于随机变量Z,

同样该式可以使用马尔可夫不等式进行证明:

d8b6fefc2d5a36b37097a32ba6700339.png

切尔诺夫不等式(切尔诺夫界)由于有了矩量母函数,所以对求和非常友好。我们假设

都是独立的,可以得到如下等式:

如此意味着,当我们要计算一些独立同分布变量和的切尔诺夫界时,我们只需要计算这些变量中的一个的矩量母函数。

假设

都是i.i.d,并且为了简化,假设均值为0,可以得到:


大数定理

我们可以由切比雪夫不等式直接推得大数定理。

设随机变量

互相独立,并且具有相同的期望
和方差
.对于前n个随机变量的平均
,则有任意正数
,有:

2fecce1ad3b0429b794d46afb3e8538e.png

大数定理说明当n很大时,随机变量

的平均值
在概率意义下无限接近于期望
.

而对于统计学习中一个重要概念——PAC: 对于非常大的N时,有

几乎相对正确(probably approxiamtely correct. PAC) :


霍夫丁引理及霍夫丁不等式

Theorem(Hoeffding's inequality).

假设一系列随机有界独立变量:

, 有:

Lemma 霍夫丁引理(Hoeffding's lemma):

假设随机有界变量

,有:

我们结合切尔诺夫界和霍夫丁引理即可以证明霍夫丁不等式。


重头戏

为证明霍夫丁不等式,我们先证明霍夫丁引理的一个弱化形式:

引入延森不等式(Jensen's inequality)

Jensen不等式在EM算法中也起到非常大的作用。

Jensen不等式内容如下:

如果实数域上的映射

是一个
凸函数(convex function),即意味着f是一个碗状函数,则有:
可以结合高等数学或者数学分析学习的凸函数形状来记忆理解。常见的凸函数如
.

我们将使用一个在概率论、机器学习和统计中常用的技巧 对称化 来给出结果。

令 Z' 为一个和Z拥有相同分布的独立复制变量,于是:

现在我们可以得到如下不等式:

为`E,E'`的期望值。

不等式中的步骤(i)是对函数

使用Jensen不等式的结果,即有:

注意到 Z-Z' 是关于零对称的,于是如果S是一个随机信号变量,则有 S(Z-Z') 和 Z-Z' 具有相同的分布情况,即 S(Z-Z') 与 Z-Z' 同正同负,故:

关于这个等式的意义,我还有些许疑惑,望评论区大佬指点。

有了上述准备后,我们可以根据随机信号函数的矩量母函数的 不等式 1) 给出如下不等式:

又由于假设

,于是
,即有
, 联立4)式有:

这样我们就证明了霍夫丁引理的弱化式3). :)

坚持,马上就到底了!

接下来开始证明 霍夫丁不等式

我们只需证明第一个不等式(第二种证明类似):

这里步骤(i)使用到了 霍夫丁引理.

结合上文矩量母函数中求Rademacher分布概率最小的方法,我们可以求得该情况下的概率上界:

Q.E.D.


参考文献Reference

[1] 斯坦福大学课堂讲义:CS229 Supplemental Lecture notes: Hoeffding’s inequality

[2] Rademacher distribution

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值