引言
概率、统计和机器学习中的一个基本问题是:给定一个期望为
为了解决这个问题,我们可以使用一些工具来计算边界:
Hoeffding不等式是一种强大的技巧——也许是学习理论中最重要的不等式——用于限定有界随机变量和过大或过小的概率。
几个需要使用到的命题
马尔可夫不等式 Markov’s inequality
假设
证明如下:
切比雪夫不等式 Chebyshev’s inequality
假设
均方差
证明可以使用马尔可夫不等式:
我们可以考虑一种特殊情况,
矩量母函数MGF
在统计学中,矩又被称为动差(Moment)。
矩量母函数(Moment Generating Function,简称mgf)又被称为动差生成函数。
我们称
连续型随机变量ξ的MGF为:
离散型随机变量ξ的MGF为:
矩量母函数 存在当且仅当上述积分(连加)极限存在。
MGF的定义引用自百度百科。
矩量母函数的例子
下面将给出几个矩量母函数的例子,并且会衍生出一些偏差不等式。
我们使用如下形式的边界:
C的大小依赖于Z的分布。
首先,拿经典的正态分布做例子:
第二个例子: Rademacher随机变量(随机信号变量)。
关于Rademacher分布的概率密度函数为如下:
对于不等式1),我们可以使用泰勒展开将指数函数展开:
值得注意的是,对于随机信号变量,当k为奇数时,
所以得到:
而对于任意自然数k,有不等式
如果我们有Z为Rademacher分布:
由上式知,要是的
可以对上式关于
如果我们令
于是有
切尔诺夫边界 Chernoff bounds
我们定义Z的矩量母函数:
切尔诺夫边界使用矩量母函数(Moment generating functions)作为一种必要的方法来给出指数偏差界限。
对于随机变量Z,
同样该式可以使用马尔可夫不等式进行证明:
切尔诺夫不等式(切尔诺夫界)由于有了矩量母函数,所以对求和非常友好。我们假设
如此意味着,当我们要计算一些独立同分布变量和的切尔诺夫界时,我们只需要计算这些变量中的一个的矩量母函数。
假设
大数定理
我们可以由切比雪夫不等式直接推得大数定理。
设随机变量
大数定理说明当n很大时,随机变量
而对于统计学习中一个重要概念——PAC: 对于非常大的N时,有
霍夫丁引理及霍夫丁不等式
Theorem(Hoeffding's inequality).
假设一系列随机有界独立变量:
Lemma 霍夫丁引理(Hoeffding's lemma):
假设随机有界变量
我们结合切尔诺夫界和霍夫丁引理即可以证明霍夫丁不等式。
重头戏
为证明霍夫丁不等式,我们先证明霍夫丁引理的一个弱化形式:
引入延森不等式(Jensen's inequality)
Jensen不等式在EM算法中也起到非常大的作用。
Jensen不等式内容如下:
如果实数域上的映射
可以结合高等数学或者数学分析学习的凸函数形状来记忆理解。常见的凸函数如.
我们将使用一个在概率论、机器学习和统计中常用的技巧 对称化 来给出结果。
令 Z' 为一个和Z拥有相同分布的独立复制变量,于是:
现在我们可以得到如下不等式:
为`E,E'`的期望值。
不等式中的步骤(i)是对函数
注意到 Z-Z' 是关于零对称的,于是如果S是一个随机信号变量,则有 S(Z-Z') 和 Z-Z' 具有相同的分布情况,即 S(Z-Z') 与 Z-Z' 同正同负,故:
关于这个等式的意义,我还有些许疑惑,望评论区大佬指点。
有了上述准备后,我们可以根据随机信号函数的矩量母函数的 不等式 1) 给出如下不等式:
又由于假设
这样我们就证明了霍夫丁引理的弱化式3). :)
坚持,马上就到底了!
接下来开始证明 霍夫丁不等式:
我们只需证明第一个不等式(第二种证明类似):
这里步骤(i)使用到了 霍夫丁引理.
结合上文矩量母函数中求Rademacher分布概率最小的方法,我们可以求得该情况下的概率上界:
Q.E.D.
参考文献Reference
[1] 斯坦福大学课堂讲义:CS229 Supplemental Lecture notes: Hoeffding’s inequality
[2] Rademacher distribution