1.Balls & Bins

1.Balls & Bins

  • 定义:将m个balls 装入n 个不同的bins
    在这里插入图片描述
  • 球条件独立:m个球之间相互独立进入n个bins 互不影响,第i个球进入第j个盒子的概率为 p i j = 1 / n ; p_{ij}=1/n; pij=1/n;
  • 盒子条件不独立但同分布:用 Z = { Z 1 , Z 2 , … , Z n } Z=\{Z_1,Z_2,\dots ,Z_n\} Z={Z1,Z2,,Zn}表示每个盒子中装有的球数,当一个盒子装得多了,另外一个就少了,自然不独立的但同分布。

2.应用-生日迅论

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
将球盒模型应用到Birthday Paradox 这一问题上时,n个盒子代表N=365天,而班级的每个成员(m个球)对应的生日可以看作是球,由上图黄色标明,当成员大于盒子的根号N量级时,会以高概率出现双生缘
还有类似的应用:loading balancing 问题,球是多个任务,盒子是多个服务器,我们可以关注负载最大的服务器上的负载的量级

3几个重要结论

  • m < n m< \sqrt{n} m<n ,所有球分得很开,多数盒子为空

  • m > θ ( n ) m>\theta (\sqrt{n}) m>θ(n ),以高概率出现2个球在一个盒子中,即生日悖 论
    形式化表示为:
    当 m ∼ θ ( n ) , ∃ Z i ≥ 2 ∃ Y = max ⁡ 1 ≤ i ≤ n Z i , Y ≥ 2 且 P r ( Y ≥ 2 ) ≥ 1 − ϵ 当 m\sim \theta (\sqrt{n}),\exists\quad Z_i\ge2 \\ \exists Y=\max_{1\leq i \leq n}Z_i,Y\ge2且Pr{(Y\ge 2)\ge1-\epsilon} mθ(n ),Zi2Y=1inmaxZi,Y2Pr(Y2)1ϵ

  • 当m=n时,关注球数最多的盒子(负载最大的服务器上的负载数量)中球数以高概率服从ln n的数量级,形式化为:
    当 m = n , 令 Y = max ⁡ 1 ≤ i ≤ n Z i , Y ∼ θ ( ln ⁡ n ln ⁡ ln ⁡ n ) w i t h h i g h p r o b a b i l i t y 当 m=n,\\ 令Y=\max_{1\leq i \leq n}Z_i,\\ Y\sim\theta(\frac{\ln n}{\ln \ln n}) \quad \quad with\quad high \quad probability m=n,Y=1inmaxZi,Yθ(lnlnnlnn)withhighprobability

  • m = n ln ⁡ n m=n\ln n m=nlnn可以说是满足大数定理,即每个盒子中的数量以高概率 为 m / n = ln ⁡ n m/n=\ln n m/n=lnn在这里插入图片描述
    这点证明参考Coupon Collector’s Problem高级算法设计

证明 当m=n时,关注球数最多的盒子(负载最大的服务器上的负载数量)中球数以高概率服从ln n的数量级,形式化为:

当 m = n , 令 Y = max ⁡ 1 ≤ i ≤ n Z i , Y ∼ θ ( ln ⁡ n ln ⁡ ln ⁡ n ) w i t h h i g h p r o b a b i l i t y 当 m=n,\\ 令Y=\max_{1\leq i \leq n}Z_i,\\ Y\sim\theta(\frac{\ln n}{\ln \ln n}) \quad \quad with\quad high \quad probability m=n,Y=1inmaxZi,Yθ(lnlnnlnn)withhighprobability

即证 Pr ⁡ ( Y = c ln ⁡ n ln ⁡ ln ⁡ n ) = 1 − O ( 1 ) \Pr(Y=c\frac{\ln n}{\ln \ln n})=1-O(1) Pr(Y=clnlnnlnn)=1O(1)

不妨使 c = 1 4 c=\frac{1}{4} c=41

即证 Pr ⁡ ( max ⁡ Z i ≤ 4 ln ⁡ n ln ⁡ ln ⁡ n ) = 1 − O ( 1 ) ( 1 ) \Pr(\max Z_i\leq 4\frac{\ln n}{\ln \ln n})=1-O(1)\quad \quad \quad (1) Pr(maxZi4lnlnnlnn)=1O(1)(1) Pr ⁡ ( max ⁡ Z i ≥ 1 4 ln ⁡ n ln ⁡ ln ⁡ n ) = 1 − O ( 1 ) ( 2 ) \Pr(\max Z_i\geq \frac{1}{4}\frac{\ln n}{\ln \ln n})=1-O(1)\quad \quad \quad (2) Pr(maxZi41lnlnnlnn)=1O(1)(2)


3.1

证(1)等价于证( 令 t = ln ⁡ n ln ⁡ ln ⁡ n 令t=\frac{\ln n}{\ln \ln n} t=lnlnnlnn)
1 − Pr ⁡ ( max ⁡ Z i ≤ 4 t ) = O ( 1 ) 1-\Pr(\max Z_i\leq 4t)=O(1) 1Pr(maxZi4t)=O(1)
等价于证
Pr ⁡ ( max ⁡ Z i > 4 t ) = O ( 1 ) 那 么 需 要 求 它 的 上 界 \Pr(\max Z_i>4t)=O(1)\quad \quad 那么需要求它的上界 Pr(maxZi>4t)=O(1)
等价于证 Pr ⁡ ( max ⁡ Z i > 4 t ) = Pr ⁡ ( Z 1 > 4 t ⋃ Z 2 > 4 t ⋃ ⋯ ⋃ Z n > 4 t ) ≤ ∑ i = 1 n Pr ⁡ ( Z i > 4 t ) 不 妨 设 第 一 个 盒 子 球 数 最 多 max ⁡ Z i = Z 1 ≤ n Pr ⁡ ( Z 1 > 4 t ) = O ( 1 ) \Pr(\max Z_i>4t)=\Pr(Z_1>4t\bigcup Z_2>4t\bigcup \dots \bigcup Z_n>4t)\\ \leq\sum_{i=1}^n \Pr(Z_i>4t) \quad 不妨设第一个盒子球数最多\max Z_i=Z_1\\ \leq n \Pr(Z_1>4t) =O(1) Pr(maxZi>4t)=Pr(Z1>4tZ2>4tZn>4t)i=1nPr(Zi>4t)maxZi=Z1nPr(Z1>4t)=O(1)

3.1.1 先证 Pr ⁡ ( Z 1 > 4 t ) = O ( 1 ) \Pr( Z_1>4t)=O(1) Pr(Z1>4t)=O(1)即求其上界

物理意义为至少有 4 t + 1 4t+1 4t+1个球落入第一个盒子,设球的序号为: ( j 1 , j 2 , j 3 … , j 4 t + 1 ) ∈ m = n (j_1,j_2,j_3\dots,j_{4t+1})\in m=n (j1,j2,j3,j4t+1)m=n
Pr ⁡ ( Z 1 > 4 t ) = ⋃ j 1 … j 4 t + 1 ∈ n Pr ⁡ ( j 1 , j 2 . . . … j 4 t + 1 i n b i n 1 ) ≤ ∑ j 1 … j 4 t + 1 ∈ n Pr ⁡ ( j 1 , j 2 . . . … j 4 t + 1 i n b i n 1 ) = C n 4 t + 1 ( 1 n ) 4 t + 1 其 它 的 n − 4 t − 1 个 球 进 入 哪 一 个 盒 子 并 不 关 心 \Pr( Z_1>4t)=\bigcup_{j_1\dots j_{4t+1}\in n} \Pr(j_1,j_2...\dots j_{4t+1} \quad in \quad bin1)\\ \leq \sum_{j_1\dots j_{4t+1}\in n} \Pr(j_1,j_2...\dots j_{4t+1} \quad in \quad bin1)\\= C_{n}^{4t+1}(\frac{1}{n})^{4t+1}\\ \quad \quad 其它的n-4t-1 个球进入哪一个盒子并不关心 Pr(Z1>4t)=j1j4t+1nPr(j1,j2...j4t+1inbin1)j1j4t+1nPr(j1,j2...j4t+1inbin1)=Cn4t+1(n1)4t+1n4t1
利用公式 ( n m ) m ≤ C n m = n ( n − 1 ) ( n − 2 ) … ( n − m + 1 ) m ( m − 1 ) ( m − 2 ) … ( 1 ) ≤ ( n e m ) m ( ∗ ) (\frac{n}{m})^m\leq C_{n}^m=\frac{n(n-1)(n-2)\dots(n-m+1)}{m(m-1)(m-2)\dots(1)}\le(\frac{ne}{m})^m\quad (*) (mn)mCnm=m(m1)(m2)(1)n(n1)(n2)(nm+1)(mne)m()

3.1.1有

Pr ⁡ ( Z 1 > 4 t ) = C n 4 t + 1 ( 1 n ) 4 t + 1 ≤ ( 1 n ) 4 t + 1 ( n e 4 t + 1 ) 4 t + 1 = ( e 4 t + 1 ) 4 t + 1 ≈ 1 t 4 t + 1 代 入 t = ln ⁡ n ln ⁡ ln ⁡ n = ( ln ⁡ ln ⁡ n l n n ) 4 t + 1 ≈ ( ln ⁡ n ln ⁡ n ) 4 t + 1 = ( ln ⁡ n ) − 2 t = e − 2 t ln ⁡ ln ⁡ n = e − 2 ln ⁡ n ln ⁡ ln ⁡ n ln ⁡ ln ⁡ n = e − 2 ln ⁡ n = 1 n 2 \Pr( Z_1>4t)= C_{n}^{4t+1}(\frac{1}{n})^{4t+1}\\ \leq(\frac{1}{n})^{4t+1} (\frac{ne}{4t+1})^{4t+1} \\ = (\frac{e}{4t+1})^{4t+1}\\ \approx \frac{1}{t}^{4t+1} 代入t=\frac{\ln n}{\ln \ln n} \\ =(\frac{\ln \ln n}{\\ln n})^{4t+1}\\ \approx( \frac{\sqrt{\ln n}}{\ln n })^{4t+1}=(\ln n)^{-2t}=e^{-2t\ln \ln n}\\= e^{-2\frac{\ln n}{\ln \ln n}\ln \ln n}=e^{-2\ln n}=\frac{1}{n^2} Pr(Z1>4t)=Cn4t+1(n1)4t+1(n1)4t+1(4t+1ne)4t+1=(4t+1e)4t+1t14t+1t=lnlnnlnn=(lnnlnlnn)4t+1(lnnlnn )4t+1=(lnn)2t=e2tlnlnn=e2lnlnnlnnlnlnn=e2lnn=n21
于是有

等价于证 Pr ⁡ ( max ⁡ Z i > 4 t ) ≤ n Pr ⁡ ( Z 1 > 4 t ) = n 1 n 2 = 1 n = O ( 1 ) \Pr(\max Z_i>4t)\leq n \Pr(Z_1>4t) =n\frac{1}{n^2}=\frac{1}{n}=O(1) Pr(maxZi>4t)nPr(Z1>4t)=nn21=n1=O(1)
得证



3.2 证(2)

我们要 换一种思路( 令 t = ln ⁡ n ln ⁡ ln ⁡ n 令t=\frac{\ln n}{\ln \ln n} t=lnlnnlnn)
Pr ⁡ ( max ⁡ Z i ≥ 1 4 ln ⁡ n ln ⁡ ln ⁡ n ) = 1 − O ( 1 ) ( 2 ) \Pr(\max Z_i\geq \frac{1}{4}\frac{\ln n}{\ln \ln n})=1-O(1)\quad \quad \quad (2) Pr(maxZi41lnlnnlnn)=1O(1)(2)

我们不写成如下的形式来证明,因为下式是在求上界,实际中我们应该求下界才是
Pr ⁡ ( max ⁡ Z i > 1 4 t ) = Pr ⁡ ( Z 1 > 1 4 t ⋃ Z 2 > 1 4 t ⋃ ⋯ ⋃ Z n > 1 4 t ) ≤ ∑ i = 1 n Pr ⁡ ( Z i > 1 4 t ) 不 妨 设 第 一 个 盒 子 球 数 最 多 max ⁡ Z i = Z 1 ≤ n Pr ⁡ ( Z 1 > 1 4 t ) \Pr(\max Z_i>\frac{1}{4}t)=\Pr(Z_1>\frac{1}{4}t\bigcup Z_2>\frac{1}{4}t\bigcup \dots \bigcup Z_n>\frac{1}{4}t)\\ \leq\sum_{i=1}^n \Pr(Z_i>\frac{1}{4}t) \quad 不妨设第一个盒子球数最多\max Z_i=Z_1\\ \leq n \Pr(Z_1>\frac{1}{4}t) Pr(maxZi>41t)=Pr(Z1>41tZ2>41tZn>41t)i=1nPr(Zi>41t)maxZi=Z1nPr(Z1>41t)

3.2.1 求 Pr ⁡ ( Z 1 > 1 4 t ) \Pr(Z_1>\frac{1}{4}t) Pr(Z1>41t)的下界

Pr ⁡ ( Z 1 > 1 4 t ) = ∑ k = 1 4 n Pr ⁡ ( Z 1 = k ) ≥ Pr ⁡ ( Z 1 = 1 4 t + 1 ) = C n 1 4 t + 1 ( 1 n ) 1 4 t + 1 ( 1 − 1 n ) n − 1 4 t − 1 利 用 ( 1 − 1 n ) n ∼ e − 1 和 公 式 ∗ ≥ C n 1 4 t + 1 ( 1 n ) 1 4 t + 1 e − 1 ≥ ( n 1 4 t + 1 ) 1 4 t + 1 ( 1 n ) 1 4 t + 1 e − 1 = ( 1 1 4 t + 1 ) 1 4 t + 1 e − 1 ≥ ( 4 ln ⁡ ln ⁡ n ln ⁡ n + 4 ln ⁡ ln ⁡ n ) 1 4 t + 1 e − 1 当 n > e 2 时 , 有 4 ln ⁡ ln ⁡ n > 2 ≥ ( 2 ln ⁡ n + 4 ln ⁡ ln ⁡ n ) 1 4 t + 1 e − 1 再 利 用 4 ln ⁡ ln ⁡ n > 2 ≥ ( 1 ln ⁡ n ) 1 4 t + 1 e − 1 = ( ln ⁡ n ) − 1 4 ( ln ⁡ n ln ⁡ ln ⁡ n ) − 1 e − 1 = e ( − 1 4 ( ln ⁡ n ln ⁡ ln ⁡ n ) − 1 ) ln ⁡ ln ⁡ n e − 1 = e ( − 1 4 ( ln ⁡ n ) − ln ⁡ l n n ) e − 1 = n − 1 4 1 ln ⁡ n e − 1 = 1 n 1 4 1 ln ⁡ n e − 1 有 n 1 4 ≪ n 1 3 ≥ 1 n 1 3 \Pr(Z_1>\frac{1}{4}t)= \sum_{k=\frac{1}{4}}^n \Pr(Z_1=k)\\ \ge \Pr(Z_1=\frac{1}{4}t+1)=C_{n}^{\frac{1}{4}t+1}(\frac{1}{n})^{\frac{1}{4}t+1}(1-\frac{1}{n})^{n-\frac{1}{4}t-1} \\利用(1-\frac{1}{n})^{n}\sim e^{-1}和 公式*\\ \geq C_{n}^{\frac{1}{4}t+1}(\frac{1}{n})^{\frac{1}{4}t+1}e^{-1}\\ \geq(\frac{n}{\frac{1}{4}t+1})^{\frac{1}{4}t+1}(\frac{1}{n})^{\frac{1}{4}t+1}e^{-1}\\ =(\frac{1}{\frac{1}{4}t+1})^{\frac{1}{4}t+1}e^{-1}\\ \geq(\frac{4\ln \ln n}{\ln n+4\ln \ln n})^{\frac{1}{4}t+1}e^{-1} \quad 当n>e^2 时,有4\ln \ln n>2\\ \geq(\frac{2}{\ln n+4\ln \ln n})^{\frac{1}{4}t+1}e^{-1}\quad 再利用4\ln \ln n>2\\ \geq(\frac{1}{\ln n})^{\frac{1}{4}t+1}e^{-1}=(\ln n)^{-\frac{1}{4}(\frac{\ln n}{\ln \ln n})-1}e^{-1}\\ =e^{(-\frac{1}{4}(\frac{\ln n}{\ln \ln n})-1)\ln \ln n}e^{-1}\\ =e^{(-\frac{1}{4}(\ln n)-\ln ln n)}e^{-1}\\ ={n^{-\frac{1}{4}} \frac{1}{\ln n}}e^{-1}={{\frac{1}{n^\frac{1}{4}}} \frac{1}{\ln n}}e^{-1} \quad 有n^{\frac{1}{4} }\ll n^{\frac{1}{3} }\\ \geq{\frac{1}{n^\frac{1}{3}}} Pr(Z1>41t)=k=41nPr(Z1=k)Pr(Z1=41t+1)=Cn41t+1(n1)41t+1(1n1)n41t1(1n1)ne1Cn41t+1(n1)41t+1e1(41t+1n)41t+1(n1)41t+1e1=(41t+11)41t+1e1(lnn+4lnlnn4lnlnn)41t+1e1n>e24lnlnn>2(lnn+4lnlnn2)41t+1e14lnlnn>2(lnn1)41t+1e1=(lnn)41(lnlnnlnn)1e1=e(41(lnlnnlnn)1)lnlnne1=e(41(lnn)lnlnn)e1=n41lnn1e1=n411lnn1e1n41n31n311

3.2.2 求 Pr ⁡ ( Y ≥ 1 4 t ) \Pr(Y\geq \frac{1}{4}t) Pr(Y41t)的下界

即证 Pr ⁡ ( max ⁡ Z i ≥ 1 4 ln ⁡ n ln ⁡ ln ⁡ n ) = 1 − O ( 1 ) ( 2 ) \Pr(\max Z_i\geq \frac{1}{4}\frac{\ln n}{\ln \ln n})=1-O(1)\quad \quad \quad (2) Pr(maxZi41lnlnnlnn)=1O(1)(2)
定义变量 { X 1 , X 2 , … , X n } \{X_1,X_2,\dots, X_n\} {X1,X2,,Xn}
X i = { 1   i f Z i > 1 4 t 0   o t h e r s X_i=\left\{ \begin{aligned} 1 & & \ if \quad Z_i>\frac {1}{4}t\\ 0 & & \ others\\ \end{aligned} \right. Xi=10 ifZi>41t others

令 p i = Pr ⁡ ( X i = 1 ) = Pr ⁡ ( Z i > 1 4 t ) E ( X i ) = p i V a r ( X i ) = p i ( 1 − p i ) ≤ 1 / 4 X = X 1 + X 2 + ⋯ + X n E ( X ) = E ( X 1 + X 2 + ⋯ + X n ) = n E ( X i ) = n Pr ⁡ ( Z i > 1 4 t ) ≥ n 2 3 V a r ( X ) = V a r ( X 1 + X 2 + ⋯ + X n ) ≤ n V a r ( X i ) = 1 4 n ) 令p_i=\Pr(X_i=1)=\Pr( Z_i>\frac {1}{4}t) \quad \\ E(X_i)=p_i\\ Var(X_i)=p_i(1-p_i)\leq1/4\\ X=X_1+X_2+\dots +X_n \\E(X)=E(X_1+X_2+\dots +X_n)=nE(X_i)=n\Pr( Z_i>\frac {1}{4}t)\ge n^{\frac{2}{3}}\\ Var(X)=Var(X_1+X_2+\dots +X_n)\leq nVar(X_i)=\frac {1}{4}n) pi=Pr(Xi=1)=Pr(Zi>41t)E(Xi)=piVar(Xi)=pi(1pi)1/4X=X1+X2++XnE(X)=E(X1+X2++Xn)=nE(Xi)=nPr(Zi>41t)n32Var(X)=Var(X1+X2++Xn)nVar(Xi)=41n)
证方差时用到的公式是 V a r ( X + Y ) = V a r ( X ) + V a r ( Y ) + 2 C o v ( X , Y ) Var(X+Y)=Var(X)+Var(Y)+2Cov(X,Y) Var(X+Y)=Var(X)+Var(Y)+2Cov(X,Y) X , Y X,Y X,Y负相关时, V a r ( X + Y ) ≤ V a r ( X ) + V a r ( Y ) Var(X+Y)\leq Var(X)+Var(Y) Var(X+Y)Var(X)+Var(Y),上面 X i X_i Xi间满足负相关,当Z_i 大时,其它盒子装的球就会少。

证下式 Pr ⁡ ( max ⁡ Z i > 1 4 t ) = Pr ⁡ ( Z 1 > 1 4 t ⋃ Z 2 > 1 4 t ⋃ ⋯ ⋃ Z n > 1 4 t ) = Pr ⁡ ( X 1 = 1 ⋃ X 2 = 1 ⋃ ⋯ ⋃ X n = 1 ) = 1 − Pr ⁡ ( X 1 = 0 ⋂ X 2 = 0 ⋂ ⋯ ⋂ X n = 0 ) = 1 − Pr ⁡ ( ∑ i = 1 n X i ) = 1 − Pr ⁡ ( X = 0 ) = 1 − O ( 1 ) \Pr(\max Z_i>\frac{1}{4}t)=\Pr(Z_1>\frac{1}{4}t\bigcup Z_2>\frac{1}{4}t\bigcup \dots \bigcup Z_n>\frac{1}{4}t)\\ =\Pr(X_1=1\bigcup X_2=1\bigcup \dots \bigcup X_n=1)\\ =1-\Pr(X_1=0\bigcap X_2=0\bigcap \dots \bigcap X_n=0)\\ =1-\Pr(\sum_{i=1}^nX_i) =1-\Pr(X=0)=1-O(1) Pr(maxZi>41t)=Pr(Z1>41tZ2>41tZn>41t)=Pr(X1=1X2=1Xn=1)=1Pr(X1=0X2=0Xn=0)=1Pr(i=1nXi)=1Pr(X=0)=1O(1)
等价于证 Pr ⁡ ( X = 0 ) = O ( 1 ) , 即 证 其 上 界 为 小 O ( 1 ) \Pr(X=0)=O(1),即证其上界为小O(1) Pr(X=0)=O(1),O1
X = X 1 + X 2 + ⋯ + X n X=X_1+X_2+\dots +X_n X=X1+X2++Xn
Pr ⁡ ( X = 0 ) = Pr ⁡ ( X − E ( X ) = − E ( X ) ) ≤ Pr ⁡ ( ∣ X − E ( X ) ∣ = ∣ E ( X ) ∣ ) 利 用 切 比 雪 夫 不 等 式 ≤ V a r ( X ) E 2 ( X ) ( 3 ) \Pr(X=0)=\Pr(X-E(X)=-E(X))\\ \leq \Pr(|X-E(X)|=|E(X)|)\quad 利用切比雪夫不等式\\ \leq \frac{Var(X)}{E^2(X)} \quad \quad \quad (3) Pr(X=0)=Pr(XE(X)=E(X))Pr(XE(X)=E(X))E2(X)Var(X)(3)在这里插入图片描述
因此有
Pr ⁡ ( X = 0 ) ≤ V a r ( X ) E 2 ( X ) = n / 4 n 4 3 = 1 4 1 n 1 3 ∼ O ( 1 ) \Pr(X=0) \leq \frac{Var(X)}{E^2(X)} =\frac{n/4}{n^{\frac{4}{3}}}=\frac{1}{4} \frac{1}{n^{\frac{1}{3}}}\sim O(1) Pr(X=0)E2(X)Var(X)=n34n/4=41n311O(1)
得证

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值