Chernoff-Hoeffding Bound

最新推荐文章于 2023-05-17 20:48:06 发布

qqiseeu

最新推荐文章于 2023-05-17 20:48:06 发布

阅读量7.4k

点赞数 6

分类专栏： Mathematics Machine Learning 文章标签：数学

本文链接：https://blog.csdn.net/qqiseeu/article/details/46293457

版权

本文是《Concentration of Measure for the Analysis of Randomized Algorithms》的读书笔记，主要讨论Chernoff-Hoeffding界限。Chernoff界限利用矩生成函数处理随机变量之和的期望，适用于独立同分布的伯努利随机变量。Chernoff-Hoeffding界限进一步推广到[0,1]区间内的独立随机变量，通过函数e^λx的凸性特性得到。此外，还介绍了引入方差信息的界限，通过构造上界引入二阶矩。" 119822514,10720807,华为云GaussDB如何防止Redis高危漏洞,"['数据库', '安全', '云服务', 'Redis', 'GaussDB']

摘要由CSDN通过智能技术生成

《Concentration of Measure for the Analysis of Randomized Algorithms》：读书笔记(1)

Chapter 1: Chernoff-Hoeffding Bound

原文发布于https://zybuluo.com/qqiseeu/note/109942

引文

中心不等式（Concentration Inequality）是分析随机算法的经典工具，在机器学习算法的理论分析中也用的特别多。为了
学习这方面的知识，刚开始我选择的是Massart和Lugosi所著的Concentration Inequalities，无奈数学水平不够，看了一章就实在看不下去了。后来换了这本简单一些的Concentration of Measure for the Analysis of Randomized Algorithms，总算是能往后翻了。这个系列的文章作为读书笔记，希望能够督促自己坚持读完。

Concentration of meature可简单地理解为随机变量在其期望处“聚集”的行为。概率论中已经提供了两个经典工具————大数定律及中心极限定理————来刻画这种现象，然而它们所给出的结果存在几点不足：

上述结果只刻画了渐进情况下的性质，然而在分析实际算法时我们更青睐能够应用于finite case的结果
上述经典工具给出的是qualitative的结果，但我们更希望有quantitative的结果，也即明确的收敛率
上述经典工具给出的结果都基于独立性的假设，然而对于很多复杂的随机算法，独立性是不满足的，因此我们需要不依赖独立性假设的工具。

Chernoff Bound

Chernoff bounding technique指的是用moment-generating function来处理多个随机变量之和的期望的技巧。所谓moment-generating function被定义为随机变量 $X$ 的指数函数的期望 $E[e^{\lambda X}]$ 。

先来看一个简单的例子：考虑独立同分布的Bernoulli随机变量 $X_i\sim Bernoulli(p)$ 及它们的和 $X=\sum_{i\in[n]}X_i$ ，易见 $X\sim Binomial(n,p)$ 。现在要估计 $X$ 偏离其期望一定距离的概率，即 $Pr[X>n(p+t)]$ 。先考虑一个一般性的情况：估计 $Pr[X>m]$ 。由Markov不等式易得

P r [X > m] = P r [e λ X > e λ m] \leq E [ e λ X ] e λ m

$\begin{align} Pr[X>m] &= Pr[e^{\lambda X}>e^{\lambda m}] \\ &\leq \frac{E[e^{\lambda X}]}{e^{\lambda m}} \end{align}$

根据 $X_i$ 的独立性，上述式子中的moment-generating function可写成

E [e λ X] = E [e λ \sum i X i] = E [\prod i e λ X i] = \prod i E [e λ X i] = (p e λ + q) n

$\begin{align} E[e^{\lambda X}] &= E[e^{\lambda\sum_i X_i}] \\ &= E[\prod_i e^{\lambda X_i}] \\ &= \prod_i E[e^{\lambda X_i}] \\ &= (pe^\lambda+q)^n \end{align}$

其中 q=1−p