1 Hoeffding不等式
Hoeffding不等式是非常有用的一个不等式,在机器学习、统计学等领域,都发挥着巨大的作用。
它的思想与Markov不等式有些类似,我们先给出它的形式:
Hoeffding不等式: Y 1 , … , Y n Y_1,\ldots,Y_n Y1,…,Yn为独立观测, E ( Y i ) = 0 E(Y_i)=0 E(Yi)=0, a i ≤ Y i ≤ b i a_i\leq Y_i\leq b_i ai≤Yi≤bi。对于 ϵ > 0 \epsilon\gt 0 ϵ>0, ∀ t > 0 \forall t \gt 0 ∀t>0,有
P ( ∑ i = 1 n Y i ≥ ϵ ) ≤ e − t ϵ ∏ i = 1 n e t 2 ( b i − a i ) 2 / 8 P(\sum_{i=1}^{n} Y_i \geq \epsilon) \leq e^{-t\epsilon} \prod_{i=1}^{n} e^{t^2 (b_i-a_i)^2/8} P(i=1∑nYi≥ϵ)≤e−tϵi=1∏net2(bi−ai)2/8
2 证明
首先, ∀ t > 0 \forall t\gt 0 ∀t>0,利用Markov不等式,我们有
P ( ∑ i = 1 n Y i ≥ ϵ ) = P ( e t ∑ i = 1 n Y i ≥ e t ϵ ) ≤ e − t ϵ E ( e t ∑ i = 1 n Y i ) = e − t ϵ ∏ i = 1 n E ( e t Y i ) \begin{aligned} &P\left(\sum_{i=1}^{n} Y_i \geq \epsilon\right)\\ = & P\left(e^{t\sum_{i=1}^{n} Y_i} \geq e^{t\epsilon}\right)\\ \leq & e^{-t\epsilon} E\left(e^{t\sum_{i=1}^{n} Y_i} \right)\\ = & e^{-t\epsilon} \prod_{i=1}^{n} E\left(e^{t Y_i} \right) \end{aligned} =≤=P(i=1∑nYi≥ϵ)P(et∑i=1nYi≥etϵ)e−tϵE(et∑i=1nYi)e−tϵi=1∏nE(etYi