理解Markov, Chebyshev, Chernoff概率不等式

本文链接：https://blog.csdn.net/a358463121/article/details/125035837

Markov inequality

若Y是非负随机变量，对于所有 $\displaystyle y >0$ ,都有

$\mathrm{Pr}\{Y\geq y\} \leq \frac{\operatorname{E}[ Y]}{y}$

在这里插入图片描述

如上图， $\displaystyle y\mathrm{Pr}\{Y\geq y\}$ 是阴影部分的面积，而整个曲线下的面积是均值，所以，显然 $\displaystyle y\mathrm{Pr}\{Y\geq y\} \leqslant E[ Y]$ 。

事实上，这个曲线下面积是均值只有在Y是非负随机变量才能成立，我们可以来验证一下：

$\mathrm{Pr}\{Y\geq y\} =1-F( y)$

其中 $\displaystyle F( y) :=P( Y\leqslant y)$ 是Y的累计分布函数，满足 $\displaystyle F( +\infty ) =1$ ，于是

$\int ^{+\infty }_{0}\mathrm{Pr}\{Y\geq y\} dy=\int ^{+\infty }_{0}( 1-F( y)) dy=y( 1-F( y)) |^{+\infty }_{0} +\int ^{+\infty }_{0} yf( y) dy=E[ y]$

显然，y不是非负的时候，积分可以取到 $\displaystyle -\infty$ ，这时候 $\displaystyle y( 1-F( y))$ 就会发散，不再等于0了。

Chebyshev inequality

既然Markov inequality只能用于非负变量，那对于那些可以取负值的随机变量咋办？其实我们可以对随机变量取平方或者绝对值让他变成非负的，最典型的做法是，令 $\displaystyle Y=( Z-E[ Z])^{2}$ ，这时候Y就是一个非负随机变量了，于是

$\mathrm{Pr}\left\{( Z-E[ Z])^{2} \geq y\right\} \leq \frac{\operatorname{E}\left[( Z-E[ Z])^{2}\right]}{y} =\frac{\sigma ^{2}_{z}}{y}$

我们将 $\displaystyle y$ 换成 $\displaystyle \epsilon ^{2}$ ，于是 $\displaystyle ( Z-E[ Z])^{2} \geq \epsilon ^{2} \Longrightarrow |Z-E[ Z] |\geqslant \epsilon$ ，于是

$\mathrm{Pr}\{|Z-E[ Z] |\geq \epsilon \} \leq \frac{\sigma ^{2}_{z}}{\epsilon ^{2}}$

这就是Chebyshev inequality. 而且当 $\displaystyle Z=( X_{1} +...+X_{n}) /n$ 表示样本均值的时候，该不等式可以被用来证明weak law of large numbers.

Chernoff bounds

显然，除了平方和绝对值之外，指数函数也是一个非负函数，所以当 $\displaystyle Y=e^{Zr}$ 时，

$\mathrm{Pr}\left\{e^{Zr} \geq y\right\} \leq \frac{\operatorname{E}\left[ e^{Zr}\right]}{y}$

如果我们用 $\displaystyle e^{rb}$ 来代替 $\displaystyle y$ 会更有意义。注意到，当 $\displaystyle e^{Zr} \geqslant e^{rb}$ 时。若 $\displaystyle r >0$ 则等价于 $\displaystyle Z\geqslant b$ ，否则 $\displaystyle Z< b$ . 因此，对于任意的实数b，我们有

$\begin{array}{ c c c } \mathrm{Pr}\{Z\geq b\} \leq \frac{\operatorname{E}\left[ e^{Zr}\right]}{e^{rb}} & & r >0\\ \mathrm{Pr}\{Z\leq b\} \leq \frac{\operatorname{E}\left[ e^{Zr}\right]}{e^{rb}} & & r< 0 \end{array}$

它的最重要应用是当Z是 $\displaystyle S_{n} =X_{1} +...+X_{n}$ 独立同分布样本的求和的时候，我们有

$\begin{array}{ c c c } \mathrm{Pr}\{S_{n} \geq na\} \leq \frac{\operatorname{E}\left[ e^{S_{n} r}\right]}{e^{rna}} =\frac{\operatorname{E}\left[ e^{Xr}\right]^{n}}{e^{rna}} & & r >0\\ \mathrm{Pr}\{S_{n} \leq na\} \leq \frac{\operatorname{E}\left[ e^{S_{n} r}\right]}{e^{rna}} =\frac{\operatorname{E}\left[ e^{Xr}\right]^{n}}{e^{rna}} & & r< 0 \end{array}$

你会发现，在这个bound中，r的取值是任意的，我们可以去搜索所有的r可能的取值来找到一个最紧的bound，而显然r的最优取值是跟a有关的，那么这个最优值是多少呢？注意到 $\displaystyle g_{X}( r) :=\operatorname{E}\left[ e^{Xr}\right]$ 其实是一个moment generating function(MGF)，即， $\displaystyle g_{X} '( r) =E[ X] ,g_{X} ''( r) =E\left[ X^{2}\right]$ ，进一步令 $\displaystyle \gamma _{X}( r) :=\ln g_{X}( r)$ ，于是

$\begin{array}{ c c c } \mathrm{Pr}\{S_{n} \geq na\} \leq e^{n\gamma _{X}( r) -rna} & & r >0\\ \mathrm{Pr}\{S_{n} \leq na\} \leq e^{n\gamma _{X}( r) -rna} & & r< 0 \end{array}$

于是，最紧的bound应该就是 $\displaystyle n\gamma _{X}( r) -rna$ 所能取得的最小值。这个取了log之后的MGF又称为cumulant-generating function，它跟MGF的不同在于，它 $\displaystyle r=0$ 处的一阶跟二阶cumulant分别对应的是均值和方差。可以证明 $\displaystyle \gamma ''$ 是大于0的，是凸函数，可以用方差总是大于0来直观理解。