CS521 Advanced Algorithm Design 学习笔记(三) Lecture 3 Large deviations bounds and applications

Lecture 3 Large deviations bounds and applications

这一节主要讨论集中不等式,即随机变量偏离平均值的概率和程度。

三个越来越强的集中不等式

马尔科夫不等式

P r ( X ≥ k E [ X ] ) ≤ 1 k Pr(X\geq kE[X])\leq \frac{1}{k} Pr(XkE[X])k1

不过,想要导出 P r ( X < c E [ X ] ) Pr(X<cE[X]) Pr(X<cE[X])一类的不等式则是很难的,除非我们知道X有上界。例如,如果 X ∈ [ 0 , 1 ] X\in [0,1] X[0,1],那我们有 P [ X ≤ c E [ X ] ] ≤ 1 − μ 1 − c μ P[X\leq cE[X]]\leq \frac{1-\mu}{1-c\mu} P[XcE[X]]1cμ1μ

切比雪夫不等式

定义方差 V a r ( X ) = E ( X − E X ) 2 = σ 2 Var(X)=E(X-EX)^2=\sigma^2 Var(X)=E(XEX)2=σ2,则:
P r ( ∣ X − E X ∣ ≥ k σ ) ≤ 1 k 2 Pr(|X-EX|\geq k\sigma)\leq \frac{1}{k^2} Pr(XEX)k21
用markov不等式即可证明切比雪夫不等式:只需代入 Y = ∣ X − E X ∣ 2 Y=|X-EX|^2 Y=XEX2即可。

例如:负载均衡问题

把m个球分给n个桶,记 X X X为第一个桶分到的球数,则 E X = m n EX=\frac{m}{n} EX=nm,那么有 P r ( X > 2 m n ) = P r ( ∣ X − m n ∣ > m n ) Pr(X>2\frac{m}{n})=Pr(|X-\frac{m}{n}|>\frac{m}{n}) Pr(X>2nm)=Pr(Xnm>nm).

记随机变量$Y_i=1 \text{ iff } 第 i 个球落在第一个桶,否则为 0 ,那么 第i个球落在第一个桶,否则为0,那么 i个球落在第一个桶,否则为0,那么X=\sum_i Y_i , , EX^2=\sum_i EY_i^2+\sum_{i,j} E[Y_i Y_j] . 根据独立性, . 根据独立性, .根据独立性,E[Y_i Y_j]=E[Y_i]E[Y_j] , , EY_i=EY_i2=\frac{1}{n}$,从而综上有$EX2=\frac{m}{n}+\frac{m(m-1)}{n^2}\approx \frac{m}{n} ,代入切比雪夫不等式,有: ,代入切比雪夫不等式,有: ,代入切比雪夫不等式,有:Pr(|X-\frac{m}{n}|>\frac{m}{n})\leq \frac{n}{m}$

Large deviation bounds

根据著名的中心极限定理,在适当条件下,大量重复独立实验的结果分布最终会呈现为为正态分布:

设随机变量 X 1 , X 2 , ⋯   , X n X_1, X_2, \cdots, X_n X1,X2,,Xn 独立同分布,且具有有限的数 学期望和方差 E ( X i ) = μ E\left(X_i\right)=\mu E(Xi)=μ D ( X i ) = σ 2 ≠ 0 ( i = 1 , 2 , ⋯   , n ) D\left(X_i\right)=\sigma^2 \neq 0(i=1,2, \cdots, n) D(Xi)=σ2=0(i=1,2,,n) 。记 X ˉ = 1 n ∑ i = 1 n X i , ζ n = X ˉ − μ σ / n \bar{X}=\frac{1}{n} \sum_{i=1}^n X_i , \zeta_n=\frac{\bar{X}-\mu}{\sigma / \sqrt{n}} Xˉ=n1i=1nXiζn=σ/n Xˉμ ,则 ζ n → N ( 0 , 1 ) \zeta_n\rightarrow N(0,1) ζnN(0,1).

Chernoff Bound(中心极限定理的量化版本)

If X 1 , X 2 , … , X n X_{1}, X_{2}, \ldots, X_{n} X1,X2,,Xn are independent random variables and each X i ∈ [ − 1 , 1 ] X_{i} \in[-1,1] Xi[1,1]. Let μ i = E [ X i ] \mu_{i}=E\left[X_{i}\right] μi=E[Xi] and σ i 2 = var ⁡ [ X i ] \sigma_{i}^{2}=\operatorname{var}\left[X_{i}\right] σi2=var[Xi]. Then X = ∑ i X i X=\sum_{i} X_{i} X=iXi satisfies

Pr ⁡ [ ∣ X − μ ∣ > k σ ] ≤ 2 exp ⁡ ( − k 2 4 n ) \operatorname{Pr}[|X-\mu|>k \sigma] \leq 2 \exp \left(-\frac{k^{2}}{4 n}\right) Pr[Xμ>]2exp(4nk2)

where μ = ∑ i μ i \mu=\sum_{i} \mu_{i} μ=iμi and σ 2 = ∑ i σ i 2 \sigma^{2}=\sum_{i} \sigma_{i}^{2} σ2=iσi2

这个版本的证明比较复杂而且不算本质,我们只证下面这个二值变量的版本:

Let X 1 , X 2 , … , X n X_{1}, X_{2}, \ldots, X_{n} X1,X2,,Xn be independent 0/1-valued random variables and let p i = E [ X i ] p_{i}=\mathbf{E}\left[X_{i}\right] pi=E[Xi], where 0 < p i < 1 0<p_{i}<1 0<pi<1. Then the sum X = ∑ i = 1 n X i X=\sum_{i=1}^{n} X_{i} X=i=1nXi, which has mean μ = ∑ i = 1 n p i \mu=\sum_{i=1}^{n} p_{i} μ=i=1npi, satisfies

Pr ⁡ [ X ≥ ( 1 + δ ) μ ] ≤ ( c δ ) μ \operatorname{Pr}[X \geq(1+\delta) \mu] \leq\left(c_{\delta}\right)^{\mu} Pr[X(1+δ)μ](cδ)μ

where c δ c_{\delta} cδ is shorthand for [ e δ ( 1 + δ ) ( 1 + δ ) ] \left[\frac{e^{\delta}}{(1+\delta)^{(1+\delta)}}\right] [(1+δ)(1+δ)eδ].

证明方法:指数矩法:

We introduce a positive dummy variable t t t and observe that

E [ exp ⁡ ( t X ) ] = E [ exp ⁡ ( t ∑ i X i ) ] = E [ ∏ i exp ⁡ ( t X i ) ] = ∏ i E [ exp ⁡ ( t X i ) ] \mathbf{E}[\exp (t X)]=\mathbf{E}\left[\exp \left(t \sum_{i} X_{i}\right)\right]=\mathbf{E}\left[\prod_{i} \exp \left(t X_{i}\right)\right]=\prod_{i} \mathbf{E}\left[\exp \left(t X_{i}\right)\right] E[exp(tX)]=E[exp(tiXi)]=E[iexp(tXi)]=iE[exp(tXi)]

where the last equality holds because the X i X_{i} Xi r.v.s are independent. Now,

E [ exp ⁡ ( t X i ) ] = ( 1 − p i ) + p i e t \mathbf{E}\left[\exp \left(t X_{i}\right)\right]=\left(1-p_{i}\right)+p_{i} e^{t} E[exp(tXi)]=(1pi)+piet

therefore,

∏ i E [ exp ⁡ ( t X i ) ] = ∏ i [ 1 + p i ( e t − 1 ) ] ≤ ∏ i exp ⁡ ( p i ( e t − 1 ) ) = exp ⁡ ( ∑ i p i ( e t − 1 ) ) = exp ⁡ ( μ ( e t − 1 ) ) \begin{aligned} \prod_{i} \mathbf{E}\left[\exp \left(t X_{i}\right)\right]=\prod_{i}\left[1+p_{i}\left(e^{t}-1\right)\right] \leq \\ \prod_{i} \exp \left(p_{i}\left(e^{t}-1\right)\right) =\exp \left(\sum_{i} p_{i}\left(e^{t}-1\right)\right)=\exp \left(\mu\left(e^{t}-1\right)\right) \end{aligned} iE[exp(tXi)]=i[1+pi(et1)]iexp(pi(et1))=exp(ipi(et1))=exp(μ(et1))

as 1 + x ≤ e x 1+x \leq e^{x} 1+xex. Finally, apply Markov’s inequality to the random variable exp ⁡ ( t X ) \exp (t X) exp(tX), viz.

Pr ⁡ [ X ≥ ( 1 + δ ) μ ] = Pr ⁡ [ exp ⁡ ( t X ) ≥ exp ⁡ ( t ( 1 + δ ) μ ) ] ≤ E [ exp ⁡ ( t X ) ] exp ⁡ ( t ( 1 + δ ) μ ) = exp ⁡ ( ( e t − 1 ) μ ) exp ⁡ ( t ( 1 + δ ) μ ) \operatorname{Pr}[X \geq(1+\delta) \mu]=\operatorname{Pr}[\exp (t X) \geq \exp (t(1+\delta) \mu)] \\\leq \frac{\mathbf{E}[\exp (t X)]}{\exp (t(1+\delta) \mu)}=\frac{\exp \left(\left(e^{t}-1\right) \mu\right)}{\exp (t(1+\delta) \mu)} Pr[X(1+δ)μ]=Pr[exp(tX)exp(t(1+δ)μ)]exp(t(1+δ)μ)E[exp(tX)]=exp(t(1+δ)μ)exp((et1)μ)

using lines (1) and (2) and the fact that t t t is positive. Since t t t is a dummy variable, we can choose any positive value we like for it. The right hand size is minimized if t = ln ⁡ ( 1 + δ ) t=\ln (1+\delta) t=ln(1+δ)-just differentiate - and this leads to the theorem statement.

比起之前的两个集中不等式,Chernoff bound无疑是更强的,因为其给出的是指数量级的上界,而且根据中心极限定理,指数级的上界是最优的。

关于中位数

在均值之外,我们还想知道,给定[0,1]中的n个数字,我们能否通过部分采样来估计其中位数。

一个hardness的结果是:只用 o ( n ) o(n) o(n)个样本是不够的——我们至少不能在1.1倍内估计中位数。

考虑一个近似的概念:找一个至少大于和小于 n / 2 − n / t n/2-n/t n/2n/t个数的数。思路是以一个给定大小随机采样,然后输出样本的中位数。

在基础课上我们都学过快速排序算法,它每次随机选取一个数作为pivot,然后把比它大/小的数排列到其两边。这个算法虽然期望是 O ( n log ⁡ n ) O(n\log n) O(nlogn),但是由于两边的大小可能差异很大,导致最坏情况很差。一个更好的办法就是通过上面的近似方法选出一个近似中位数,以这个中位数为中心做快排。这个算法的运行时间就会非常接近 O ( n log ⁡ n ) O(n\log n) O(nlogn)了。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值