hoeffding不等式_统计学习--详解Hoeffding不等式

最新推荐文章于 2023-02-19 22:48:50 发布

weixin_39582724

最新推荐文章于 2023-02-19 22:48:50 发布

阅读量1.4k

点赞数

文章标签： hoeffding不等式 jensen不等式

引言

概率、统计和机器学习中的一个基本问题是:给定一个期望为

的随机变量

接近其期望的可能性有多大?更准确地说，它有多接近?

为了解决这个问题，我们可以使用一些工具来计算边界：

Hoeffding不等式是一种强大的技巧——也许是学习理论中最重要的不等式——用于限定有界随机变量和过大或过小的概率。

几个需要使用到的命题

马尔可夫不等式 Markov’s inequality

假设

是一个非负的随机变量:

证明如下:

切比雪夫不等式 Chebyshev’s inequality

假设

是任何均方差

均方差

证明可以使用马尔可夫不等式：

我们可以考虑一种特殊情况，

。此时我们定义

，则有如下不等式关系：

矩量母函数MGF

在统计学中，矩又被称为动差(Moment)。

矩量母函数(Moment Generating Function,简称mgf)又被称为动差生成函数。

我们称

的数学期望为随机变量ξ的矩量母函数，记作

连续型随机变量ξ的MGF为：

,积分区间为(-∞,+∞)，f(x)为ξ的概率密度函数。

离散型随机变量ξ的MGF为：

,其中连加号代表对ξ的所有取值连加，p(ξ=x)为ξ的概率分布函数。

矩量母函数 存在当且仅当上述积分(连加)极限存在。
MGF的定义引用自百度百科。

矩量母函数的例子

下面将给出几个矩量母函数的例子，并且会衍生出一些偏差不等式。

我们使用如下形式的边界：

C的大小依赖于Z的分布。

首先，拿经典的正态分布做例子：

第二个例子： Rademacher随机变量(随机信号变量)。

关于Rademacher分布的概率密度函数为如下:

对于不等式1),我们可以使用泰勒展开将指数函数展开：

值得注意的是，对于随机信号变量，当k为奇数时，

,当k为偶数时，

所以得到：

而对于任意自然数k,有不等式

成立，所以：

如果我们有Z为Rademacher分布：

，其中

,则

,于是结合切尔诺夫界，我们可以立即得到如下不等式：

由上式知，要是的

达到最小，只需要找到

,使得：

可以对上式关于

求偏导，得到

,代入2)中最后可以得到:

如果我们令

,可以得到更加简化的形式：

于是有

有非常高的概率使得n个独立随机符号的和基本上不大于

切尔诺夫边界 Chernoff bounds

我们定义Z的矩量母函数：

。

切尔诺夫边界使用矩量母函数(Moment generating functions)作为一种必要的方法来给出指数偏差界限。

对于随机变量Z,

同样该式可以使用马尔可夫不等式进行证明：

切尔诺夫不等式(切尔诺夫界)由于有了矩量母函数，所以对求和非常友好。我们假设

都是独立的，可以得到如下等式：

如此意味着，当我们要计算一些独立同分布变量和的切尔诺夫界时，我们只需要计算这些变量中的一个的矩量母函数。

假设

都是i.i.d,并且为了简化，假设均值为0，可以得到：

大数定理

我们可以由切比雪夫不等式直接推得大数定理。

设随机变量

互相独立，并且具有相同的期望

和方差

.对于前n个随机变量的平均

,则有任意正数

,有：

大数定理说明当n很大时，随机变量

的平均值

在概率意义下无限接近于期望

而对于统计学习中一个重要概念——PAC: 对于非常大的N时，有

几乎相对正确(probably approxiamtely correct. PAC) :

霍夫丁引理及霍夫丁不等式

Theorem(Hoeffding's inequality).

假设一系列随机有界独立变量:

, 有:

Lemma 霍夫丁引理(Hoeffding's lemma):

假设随机有界变量

,有：

我们结合切尔诺夫界和霍夫丁引理即可以证明霍夫丁不等式。

重头戏

为证明霍夫丁不等式，我们先证明霍夫丁引理的一个弱化形式:

引入延森不等式(Jensen's inequality)

Jensen不等式在EM算法中也起到非常大的作用。

Jensen不等式内容如下：

如果实数域上的映射

是一个

凸函数(convex function),即意味着f是一个碗状函数，则有：

可以结合高等数学或者数学分析学习的凸函数形状来记忆理解。常见的凸函数如
.

我们将使用一个在概率论、机器学习和统计中常用的技巧 对称化 来给出结果。

令 Z' 为一个和Z拥有相同分布的独立复制变量，于是：

现在我们可以得到如下不等式：

为`E,E'`的期望值。

不等式中的步骤(i)是对函数

使用Jensen不等式的结果，即有：

注意到 Z-Z' 是关于零对称的，于是如果S是一个随机信号变量，则有 S(Z-Z') 和 Z-Z' 具有相同的分布情况，即 S(Z-Z') 与 Z-Z' 同正同负，故：

关于这个等式的意义，我还有些许疑惑，望评论区大佬指点。

有了上述准备后，我们可以根据随机信号函数的矩量母函数的不等式 1) 给出如下不等式：

又由于假设

,于是

,即有

, 联立4)式有：

这样我们就证明了霍夫丁引理的弱化式3). :)

坚持，马上就到底了！

接下来开始证明 霍夫丁不等式：

我们只需证明第一个不等式(第二种证明类似)：

这里步骤(i)使用到了霍夫丁引理.

结合上文矩量母函数中求Rademacher分布概率最小的方法,我们可以求得该情况下的概率上界：

Q.E.D.

参考文献Reference

[1] 斯坦福大学课堂讲义:CS229 Supplemental Lecture notes: Hoeffding’s inequality

[2] Rademacher distribution

weixin_39582724

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫