informer之Proof of Proposition 1(命题1的证明)

一、新的符号和定义

  1. 符号引入

    • 我们定义 a i , j = q i k j T d a_{i,j} = \frac{q_i k_j^T}{\sqrt{d}} ai,j=d qikjT,这里 q i q_i qi是查询向量, k j k_j kj是键向量, d d d是维度。
    • a i , j a_{i,j} ai,j组成一个数组 A i = [ a i , 1 , ⋯   , a i , L K ] A_i = [a_{i,1}, \cdots, a_{i,L_K}] Ai=[ai,1,,ai,LK],其中 L K L_K LK是键向量的数量。
  2. 均值定义

    • 定义 1 L K ∑ j = 1 L K ( q i k j T d ) \frac{1}{L_K} \sum_{j=1}^{L_K} \left(\frac{q_i k_j^T}{\sqrt{d}}\right) LK1j=1LK(d qikjT) mean ( A i ) \text{mean}(A_i) mean(Ai),即 A i A_i Ai数组的均值。
  3. 新的最大值定义

    • 定义 M ‾ ( q i , K ) = max ⁡ ( A i ) − mean ( A i ) \overline{M}(q_i, K) = \max(A_i) - \text{mean}(A_i) M(qi,K)=max(Ai)mean(Ai),即数组 A i A_i Ai中的最大值减去其均值。这定义了一个新的度量,用于比较不同查询向量的结果。
举例说明1:

假设我们有以下查询向量 q i q_i qi和三个键向量 k 1 , k 2 , k 3 k_1, k_2, k_3 k1,k2,k3,并且它们的维度 d = 2 d = 2 d=2

  • 查询向量 q i = [ 1 , 2 ] q_i = [1, 2] qi=[1,2]
  • 键向量 k 1 = [ 2 , 1 ] k_1 = [2, 1] k1=[2,1] k 2 = [ 0 , 1 ] k_2 = [0, 1] k2=[0,1] k 3 = [ 1 , 1 ] k_3 = [1, 1] k3=[1,1]

我们计算 a i , j = q i k j T d a_{i,j} = \frac{q_i k_j^T}{\sqrt{d}} ai,j=d qikjT

- a i , 1 = [ 1 , 2 ] ⋅ [ 2 , 1 ] T 2 = 1 ⋅ 2 + 2 ⋅ 1 2 = 4 2 = 2 2 a_{i,1} = \frac{[1, 2] \cdot [2, 1]^T}{\sqrt{2}} = \frac{1 \cdot 2 + 2 \cdot 1}{\sqrt{2}} = \frac{4}{\sqrt{2}} = 2\sqrt{2} ai,1=2 [1,2][2,1]T=2 12+21=2 4=22
- a i , 2 = [ 1 , 2 ] ⋅ [ 0 , 1 ] T 2 = 1 ⋅ 0 + 2 ⋅ 1 2 = 2 2 = 2 a_{i,2} = \frac{[1, 2] \cdot [0, 1]^T}{\sqrt{2}} = \frac{1 \cdot 0 + 2 \cdot 1}{\sqrt{2}} = \frac{2}{\sqrt{2}} = \sqrt{2} ai,2=2 [1,2][0,1]T=2 10+21=2 2=2
- a i , 3 = [ 1 , 2 ] ⋅ [ 1 , 1 ] T 2 = 1 ⋅ 1 + 2 ⋅ 1 2 = 3 2 = 3 2 2 a_{i,3} = \frac{[1, 2] \cdot [1, 1]^T}{\sqrt{2}} = \frac{1 \cdot 1 + 2 \cdot 1}{\sqrt{2}} = \frac{3}{\sqrt{2}} = \frac{3\sqrt{2}}{2} ai,3=2 [1,2][1,1]T=2 11+21=2 3=232

得到数组 A i A_i Ai

A i = [ 2 2 , 2 , 3 2 2 ] A_i = [2\sqrt{2}, \sqrt{2}, \frac{3\sqrt{2}}{2}] Ai=[22 ,2 ,232 ]

计算均值 mean ( A i ) \text{mean}(A_i) mean(Ai)

mean ( A i ) = 1 3 ( 2 2 + 2 + 3 2 2 ) = 1 3 ( 7 2 2 ) = 7 2 6 \text{mean}(A_i) = \frac{1}{3} \left(2\sqrt{2} + \sqrt{2} + \frac{3\sqrt{2}}{2}\right) = \frac{1}{3} \left(\frac{7\sqrt{2}}{2}\right) = \frac{7\sqrt{2}}{6} mean(Ai)=31(22 +2 +232 )=31(272 )=672

计算新的最大值度量 M ‾ ( q i , K ) \overline{M}(q_i, K) M(qi,K)

max ⁡ ( A i ) = 2 2 \max(A_i) = 2\sqrt{2} max(Ai)=22
M ‾ ( q i , K ) = max ⁡ ( A i ) − mean ( A i ) = 2 2 − 7 2 6 = 5 2 6 \overline{M}(q_i, K) = \max(A_i) - \text{mean}(A_i) = 2\sqrt{2} - \frac{7\sqrt{2}}{6} = \frac{5\sqrt{2}}{6} M(qi,K)=max(Ai)mean(Ai)=22 672 =652

通过这个例子,我们看到了如何通过定义和计算 a i , j a_{i,j} ai,j以及新的度量 M ‾ ( q i , K ) \overline{M}(q_i, K) M(qi,K),来简化和比较不同查询向量的最大值特性。这有助于我们在证明中进一步分析和推导概率结论。

这段话提供了 M ( q i , K ) M(q_i, K) M(qi,K)的一个推导过程,利用了对每个组件的分解和对数性质。下面是详细的解释:

二、符号定义和分解

我们首先定义 M ( q i , K ) M(q_i, K) M(qi,K)的每个组件 a i , j a_{i,j} ai,j为:

a i , j = mean ( A i ) + Δ a i , j a_{i,j} = \text{mean}(A_i) + \Delta a_{i,j} ai,j=mean(Ai)+Δai,j

其中, mean ( A i ) \text{mean}(A_i) mean(Ai) A i A_i Ai的均值, Δ a i , j \Delta a_{i,j} Δai,j是偏差项。具体的偏差项 Δ a i , j \Delta a_{i,j} Δai,j表示每个 a i , j a_{i,j} ai,j与均值 mean ( A i ) \text{mean}(A_i) mean(Ai)的差异。这里 j = 1 , … , L K j = 1, \ldots, L_K j=1,,LK

M ( q i , K ) M(q_i, K) M(qi,K)的推导

  1. 定义和重写 M ( q i , K ) M(q_i, K) M(qi,K)

M ( q i , K ) = ln ⁡ ( ∑ j = 1 L K e q i k j T / d ) − 1 L K ∑ j = 1 L K ( q i k j T d ) M(q_i, K) = \ln \left( \sum_{j=1}^{L_K} e^{q_i k_j^T / \sqrt{d}} \right) - \frac{1}{L_K} \sum_{j=1}^{L_K} \left( \frac{q_i k_j^T}{\sqrt{d}} \right) M(qi,K)=ln(j=1LKeqikjT/d )LK1j=1LK(d qikjT)

  1. 利用 a i , j = mean ( A i ) + Δ a i , j a_{i,j} = \text{mean}(A_i) + \Delta a_{i,j} ai,j=mean(Ai)+Δai,j

a i , j a_{i,j} ai,j带入公式中:

M ( q i , K ) = ln ⁡ ( ∑ j = 1 L K e a i , j ) − mean ( A i ) M(q_i, K) = \ln \left( \sum_{j=1}^{L_K} e^{a_{i,j}} \right) - \text{mean}(A_i) M(qi,K)=ln(j=1LKeai,j)mean(Ai)

因为 a i , j = mean ( A i ) + Δ a i , j a_{i,j} = \text{mean}(A_i) + \Delta a_{i,j} ai,j=mean(Ai)+Δai,j,所以:

M ( q i , K ) = ln ⁡ ( ∑ j = 1 L K e mean ( A i ) + Δ a i , j ) − mean ( A i ) M(q_i, K) = \ln \left( \sum_{j=1}^{L_K} e^{\text{mean}(A_i) + \Delta a_{i,j}} \right) - \text{mean}(A_i) M(qi,K)=ln(j=1LKemean(Ai)+Δai,j)mean(Ai)

  1. 利用指数和对数的性质

M ( q i , K ) = ln ⁡ ( e mean ( A i ) ∑ j = 1 L K e Δ a i , j ) − mean ( A i ) M(q_i, K) = \ln \left( e^{\text{mean}(A_i)} \sum_{j=1}^{L_K} e^{\Delta a_{i,j}} \right) - \text{mean}(A_i) M(qi,K)=ln(emean(Ai)j=1LKeΔai,j)mean(Ai)

利用对数的性质 ln ⁡ ( a b ) = ln ⁡ ( a ) + ln ⁡ ( b ) \ln(ab) = \ln(a) + \ln(b) ln(ab)=ln(a)+ln(b)

M ( q i , K ) = ln ⁡ ( e mean ( A i ) ) + ln ⁡ ( ∑ j = 1 L K e Δ a i , j ) − mean ( A i ) M(q_i, K) = \ln \left( e^{\text{mean}(A_i)} \right) + \ln \left( \sum_{j=1}^{L_K} e^{\Delta a_{i,j}} \right) - \text{mean}(A_i) M(qi,K)=ln(emean(Ai))+ln(j=1LKeΔai,j)mean(Ai)

因为 ln ⁡ ( e mean ( A i ) ) = mean ( A i ) \ln \left( e^{\text{mean}(A_i)} \right) = \text{mean}(A_i) ln(emean(Ai))=mean(Ai),所以:

M ( q i , K ) = mean ( A i ) + ln ⁡ ( ∑ j = 1 L K e Δ a i , j ) − mean ( A i ) M(q_i, K) = \text{mean}(A_i) + \ln \left( \sum_{j=1}^{L_K} e^{\Delta a_{i,j}} \right) - \text{mean}(A_i) M(qi,K)=mean(Ai)+ln(j=1LKeΔai,j)mean(Ai)

简化后:

M ( q i , K ) = ln ⁡ ( ∑ j = 1 L K e Δ a i , j ) M(q_i, K) = \ln \left( \sum_{j=1}^{L_K} e^{\Delta a_{i,j}} \right) M(qi,K)=ln(j=1LKeΔai,j)

偏差项和求和

最后,我们提到:

∑ j = 1 L K Δ a i , j = 0 \sum_{j=1}^{L_K} \Delta a_{i,j} = 0 j=1LKΔai,j=0

这意味着偏差项的总和为零。这个条件确保了 Δ a i , j \Delta a_{i,j} Δai,j是对 a i , j a_{i,j} ai,j的均值的偏差。

总结

通过上述步骤,我们成功地将 M ( q i , K ) M(q_i, K) M(qi,K)表达为一个关于偏差项的对数和的公式。这一推导过程表明了如何利用均值和偏差项来简化原始的计算公式,并且通过对数性质得到了一个简洁的表达式。这在进一步的分析和优化中是非常有用的。

举例说明2

假设我们有 L K = 3 L_K = 3 LK=3个键向量 k 1 , k 2 , k 3 k_1, k_2, k_3 k1,k2,k3,并且计算得到 A i = [ a i , 1 , a i , 2 , a i , 3 ] = [ 1.2 , 0.8 , 1.0 ] A_i = [a_{i,1}, a_{i,2}, a_{i,3}] = [1.2, 0.8, 1.0] Ai=[ai,1,ai,2,ai,3]=[1.2,0.8,1.0]

  1. 计算均值

mean ( A i ) = 1.2 + 0.8 + 1.0 3 = 1.0 \text{mean}(A_i) = \frac{1.2 + 0.8 + 1.0}{3} = 1.0 mean(Ai)=31.2+0.8+1.0=1.0

  1. 计算偏差项

Δ a i , 1 = 1.2 − 1.0 = 0.2 \Delta a_{i,1} = 1.2 - 1.0 = 0.2 Δai,1=1.21.0=0.2
Δ a i , 2 = 0.8 − 1.0 = − 0.2 \Delta a_{i,2} = 0.8 - 1.0 = -0.2 Δai,2=0.81.0=0.2
Δ a i , 3 = 1.0 − 1.0 = 0 \Delta a_{i,3} = 1.0 - 1.0 = 0 Δai,3=1.01.0=0

  1. 验证偏差项和为零

Δ a i , 1 + Δ a i , 2 + Δ a i , 3 = 0.2 + ( − 0.2 ) + 0 = 0 \Delta a_{i,1} + \Delta a_{i,2} + \Delta a_{i,3} = 0.2 + (-0.2) + 0 = 0 Δai,1+Δai,2+Δai,3=0.2+(0.2)+0=0

  1. 计算 M ( q i , K ) M(q_i, K) M(qi,K)

M ( q i , K ) = ln ⁡ ( e 0.2 + e − 0.2 + e 0 ) = ln ⁡ ( e 0.2 + e − 0.2 + 1 ) M(q_i, K) = \ln \left( e^{0.2} + e^{-0.2} + e^0 \right) = \ln \left( e^{0.2} + e^{-0.2} + 1 \right) M(qi,K)=ln(e0.2+e0.2+e0)=ln(e0.2+e0.2+1)

使用具体数值计算:

e 0.2 ≈ 1.221 e^{0.2} \approx 1.221 e0.21.221
e − 0.2 ≈ 0.818 e^{-0.2} \approx 0.818 e0.20.818

所以:

M ( q i , K ) = ln ⁡ ( 1.221 + 0.818 + 1 ) = ln ⁡ ( 3.039 ) ≈ 1.11 M(q_i, K) = \ln (1.221 + 0.818 + 1) = \ln (3.039) \approx 1.11 M(qi,K)=ln(1.221+0.818+1)=ln(3.039)1.11

通过这个例子,我们展示了如何从 A i A_i Ai计算得到 M ( q i , K ) M(q_i, K) M(qi,K)的过程。
这段话重新定义并总结了前述命题,使用新的符号和等价形式来表达结论。下面是详细的解释:

三、新函数定义

我们定义函数 E S ( A i ) = ∑ j = 1 L K exp ⁡ ( Δ a i , j ) ES(A_i) = \sum_{j=1}^{L_K} \exp(\Delta a_{i,j}) ES(Ai)=j=1LKexp(Δai,j),这相当于定义 A i = [ Δ a i , 1 , ⋯   , Δ a i , L K ] A_i = [\Delta a_{i,1}, \cdots, \Delta a_{i,L_K}] Ai=[Δai,1,,Δai,LK]。这样,我们可以立即将命题改写为一个等价形式:

等价形式的命题

对于任意的 A 1 A_1 A1 A 2 A_2 A2,如果满足以下两个条件:

1. max ⁡ ( A 1 ) − mean ( A 1 ) ≥ max ⁡ ( A 2 ) − mean ( A 2 ) \max(A_1) - \text{mean}(A_1) \geq \max(A_2) - \text{mean}(A_2) max(A1)mean(A1)max(A2)mean(A2)
2. Var ( A 1 ) > Var ( A 2 ) \text{Var}(A_1) > \text{Var}(A_2) Var(A1)>Var(A2)

那么,我们可以将原始结论重新表述为一个更通用的形式,即:

E S ( A 1 ) > E S ( A 2 ) ES(A_1) > ES(A_2) ES(A1)>ES(A2)

并且这个概率与 Var ( A 1 ) − Var ( A 2 ) \text{Var}(A_1) - \text{Var}(A_2) Var(A1)Var(A2)有正相关关系。

详细解释和举例说明

1. 函数 E S ( A i ) ES(A_i) ES(Ai)的定义

函数 E S ( A i ) = ∑ j = 1 L K exp ⁡ ( Δ a i , j ) ES(A_i) = \sum_{j=1}^{L_K} \exp(\Delta a_{i,j}) ES(Ai)=j=1LKexp(Δai,j)计算的是 Δ a i , j \Delta a_{i,j} Δai,j的指数和。这提供了一个度量,用来比较不同 A i A_i Ai的大小。

2. 新的命题条件
  • 条件1 max ⁡ ( A 1 ) − mean ( A 1 ) ≥ max ⁡ ( A 2 ) − mean ( A 2 ) \max(A_1) - \text{mean}(A_1) \geq \max(A_2) - \text{mean}(A_2) max(A1)mean(A1)max(A2)mean(A2)
    这个条件意味着 A 1 A_1 A1的最大值减去均值的结果大于或等于 A 2 A_2 A2的同样计算结果。

  • 条件2 Var ( A 1 ) > Var ( A 2 ) \text{Var}(A_1) > \text{Var}(A_2) Var(A1)>Var(A2)
    这个条件意味着 A 1 A_1 A1的方差大于 A 2 A_2 A2的方差。

3. 结论

根据这些条件,我们可以得出:

E S ( A 1 ) > E S ( A 2 ) ES(A_1) > ES(A_2) ES(A1)>ES(A2)

并且,随着 Var ( A 1 ) − Var ( A 2 ) \text{Var}(A_1) - \text{Var}(A_2) Var(A1)Var(A2)的增加,这个结论的概率也会增加。

举例说明3

假设我们有两个数组 A 1 A_1 A1 A 2 A_2 A2

- A 1 = [ Δ a 1 , 1 , Δ a 1 , 2 , Δ a 1 , 3 ] = [ 0.3 , − 0.2 , − 0.1 ] A_1 = [\Delta a_{1,1}, \Delta a_{1,2}, \Delta a_{1,3}] = [0.3, -0.2, -0.1] A1=[Δa1,1,Δa1,2,Δa1,3]=[0.3,0.2,0.1]
- A 2 = [ Δ a 2 , 1 , Δ a 2 , 2 , Δ a 2 , 3 ] = [ 0.2 , − 0.1 , − 0.1 ] A_2 = [\Delta a_{2,1}, \Delta a_{2,2}, \Delta a_{2,3}] = [0.2, -0.1, -0.1] A2=[Δa2,1,Δa2,2,Δa2,3]=[0.2,0.1,0.1]

计算它们的最大值减去均值:

- max ⁡ ( A 1 ) − mean ( A 1 ) = 0.3 − 0.3 − 0.2 − 0.1 3 = 0.3 − 0 = 0.3 \max(A_1) - \text{mean}(A_1) = 0.3 - \frac{0.3 - 0.2 - 0.1}{3} = 0.3 - 0 = 0.3 max(A1)mean(A1)=0.330.30.20.1=0.30=0.3
- max ⁡ ( A 2 ) − mean ( A 2 ) = 0.2 − 0.2 − 0.1 − 0.1 3 = 0.2 − 0 = 0.2 \max(A_2) - \text{mean}(A_2) = 0.2 - \frac{0.2 - 0.1 - 0.1}{3} = 0.2 - 0 = 0.2 max(A2)mean(A2)=0.230.20.10.1=0.20=0.2

所以条件1满足。

计算它们的方差:

- Var ( A 1 ) = ( 0.3 − 0 ) 2 + ( − 0.2 − 0 ) 2 + ( − 0.1 − 0 ) 2 3 = 0.09 + 0.04 + 0.01 3 = 0.0467 \text{Var}(A_1) = \frac{(0.3 - 0)^2 + (-0.2 - 0)^2 + (-0.1 - 0)^2}{3} = \frac{0.09 + 0.04 + 0.01}{3} = 0.0467 Var(A1)=3(0.30)2+(0.20)2+(0.10)2=30.09+0.04+0.01=0.0467
- Var ( A 2 ) = ( 0.2 − 0 ) 2 + ( − 0.1 − 0 ) 2 + ( − 0.1 − 0 ) 2 3 = 0.04 + 0.01 + 0.01 3 = 0.02 \text{Var}(A_2) = \frac{(0.2 - 0)^2 + (-0.1 - 0)^2 + (-0.1 - 0)^2}{3} = \frac{0.04 + 0.01 + 0.01}{3} = 0.02 Var(A2)=3(0.20)2+(0.10)2+(0.10)2=30.04+0.01+0.01=0.02

所以条件2也满足。

计算 E S ( A i ) ES(A_i) ES(Ai)

- E S ( A 1 ) = exp ⁡ ( 0.3 ) + exp ⁡ ( − 0.2 ) + exp ⁡ ( − 0.1 ) = 1.3499 + 0.8187 + 0.9048 = 3.0734 ES(A_1) = \exp(0.3) + \exp(-0.2) + \exp(-0.1) = 1.3499 + 0.8187 + 0.9048 = 3.0734 ES(A1)=exp(0.3)+exp(0.2)+exp(0.1)=1.3499+0.8187+0.9048=3.0734
- E S ( A 2 ) = exp ⁡ ( 0.2 ) + exp ⁡ ( − 0.1 ) + exp ⁡ ( − 0.1 ) = 1.2214 + 0.9048 + 0.9048 = 3.0310 ES(A_2) = \exp(0.2) + \exp(-0.1) + \exp(-0.1) = 1.2214 + 0.9048 + 0.9048 = 3.0310 ES(A2)=exp(0.2)+exp(0.1)+exp(0.1)=1.2214+0.9048+0.9048=3.0310

结果显示 E S ( A 1 ) > E S ( A 2 ) ES(A_1) > ES(A_2) ES(A1)>ES(A2),且 Var ( A 1 ) > Var ( A 2 ) \text{Var}(A_1) > \text{Var}(A_2) Var(A1)>Var(A2),符合命题的结论。

通过这个例子,我们可以看到,在满足条件的情况下, A 1 A_1 A1的指数和 E S ( A 1 ) ES(A_1) ES(A1)大于 A 2 A_2 A2的指数和 E S ( A 2 ) ES(A_2) ES(A2),并且这个结果的概率随着 Var ( A 1 ) − Var ( A 2 ) \text{Var}(A_1) - \text{Var}(A_2) Var(A1)Var(A2)的增加而增加。这段话进一步讨论了一种细化的情况,重新强调了前述结论在特定条件下的适用性,并提出了等价形式。下面是详细解释:

四、前提条件和细化情况

我们考虑一种细化的情况,对于任意的 M m = max ⁡ i M ( q i , K ) M_m = \max_i M(q_i, K) Mm=maxiM(qi,K),存在一个 κ > 0 \kappa > 0 κ>0使得在区间 { q ∣ M ( q , K ) ∈ [ M m , M m − κ ) } \{ q \mid M(q, K) \in [M_m, M_m - \kappa) \} {qM(q,K)[Mm,Mmκ)}内,满足以下条件的 q i q_i qi q j q_j qj

1. max ⁡ ( A 1 ) − mean ( A 1 ) ≥ max ⁡ ( A 2 ) − mean ( A 2 ) \max(A_1) - \text{mean}(A_1) \geq \max(A_2) - \text{mean}(A_2) max(A1)mean(A1)max(A2)mean(A2)
2. Var ( A 1 ) > Var ( A 2 ) \text{Var}(A_1) > \text{Var}(A_2) Var(A1)>Var(A2)

高概率结论

在满足上述条件的情况下,我们有很高的概率 M ( q 1 , K ) > M ( q 2 , K ) M(q_1, K) > M(q_2, K) M(q1,K)>M(q2,K),这等价于 E S ( A 1 ) > E S ( A 2 ) ES(A_1) > ES(A_2) ES(A1)>ES(A2)

详细解释

  1. 前提条件 M m M_m Mm
    - M m = max ⁡ i M ( q i , K ) M_m = \max_i M(q_i, K) Mm=maxiM(qi,K)表示所有查询向量 q i q_i qi与键向量 K K K计算出的最大值。

    • 存在一个 κ > 0 \kappa > 0 κ>0,使得我们只考虑 M ( q , K ) M(q, K) M(q,K)落在区间 [ M m , M m − κ ) [M_m, M_m - \kappa) [Mm,Mmκ)内的 q q q
  2. 区间内的比较

    • 对于在这个区间内的任意 q i q_i qi q j q_j qj,如果 max ⁡ ( A 1 ) − mean ( A 1 ) ≥ max ⁡ ( A 2 ) − mean ( A 2 ) \max(A_1) - \text{mean}(A_1) \geq \max(A_2) - \text{mean}(A_2) max(A1)mean(A1)max(A2)mean(A2)并且 Var ( A 1 ) > Var ( A 2 ) \text{Var}(A_1) > \text{Var}(A_2) Var(A1)>Var(A2),我们有很高的概率 M ( q 1 , K ) > M ( q 2 , K ) M(q_1, K) > M(q_2, K) M(q1,K)>M(q2,K)
  3. 等价结论

    • 由于前述证明 M ( q , K ) M(q, K) M(q,K) E S ( A ) ES(A) ES(A)的关系,这个结论等价于 E S ( A 1 ) > E S ( A 2 ) ES(A_1) > ES(A_2) ES(A1)>ES(A2)

举例说明4

假设我们有两个查询向量 q 1 q_1 q1 q 2 q_2 q2,它们对应的数组 A 1 A_1 A1 A 2 A_2 A2分别是:

- A 1 = [ 0.3 , − 0.2 , − 0.1 ] A_1 = [0.3, -0.2, -0.1] A1=[0.3,0.2,0.1]
- A 2 = [ 0.2 , − 0.1 , − 0.1 ] A_2 = [0.2, -0.1, -0.1] A2=[0.2,0.1,0.1]

计算 max ⁡ ( A ) − mean ( A ) \max(A) - \text{mean}(A) max(A)mean(A)和方差:

  • A 1 A_1 A1
    - max ⁡ ( A 1 ) = 0.3 \max(A_1) = 0.3 max(A1)=0.3
    - mean ( A 1 ) = 0.3 − 0.2 − 0.1 3 = 0 \text{mean}(A_1) = \frac{0.3 - 0.2 - 0.1}{3} = 0 mean(A1)=30.30.20.1=0
    - max ⁡ ( A 1 ) − mean ( A 1 ) = 0.3 − 0 = 0.3 \max(A_1) - \text{mean}(A_1) = 0.3 - 0 = 0.3 max(A1)mean(A1)=0.30=0.3
    - Var ( A 1 ) = ( 0.3 − 0 ) 2 + ( − 0.2 − 0 ) 2 + ( − 0.1 − 0 ) 2 3 = 0.0467 \text{Var}(A_1) = \frac{(0.3 - 0)^2 + (-0.2 - 0)^2 + (-0.1 - 0)^2}{3} = 0.0467 Var(A1)=3(0.30)2+(0.20)2+(0.10)2=0.0467

  • A 2 A_2 A2
    - max ⁡ ( A 2 ) = 0.2 \max(A_2) = 0.2 max(A2)=0.2
    - mean ( A 2 ) = 0.2 − 0.1 − 0.1 3 = 0 \text{mean}(A_2) = \frac{0.2 - 0.1 - 0.1}{3} = 0 mean(A2)=30.20.10.1=0
    - max ⁡ ( A 2 ) − mean ( A 2 ) = 0.2 − 0 = 0.2 \max(A_2) - \text{mean}(A_2) = 0.2 - 0 = 0.2 max(A2)mean(A2)=0.20=0.2
    - Var ( A 2 ) = 0.02 \text{Var}(A_2) = 0.02 Var(A2)=0.02

比较条件:

- max ⁡ ( A 1 ) − mean ( A 1 ) ≥ max ⁡ ( A 2 ) − mean ( A 2 ) \max(A_1) - \text{mean}(A_1) \geq \max(A_2) - \text{mean}(A_2) max(A1)mean(A1)max(A2)mean(A2):0.3 ≥ 0.2,满足。
- Var ( A 1 ) > Var ( A 2 ) \text{Var}(A_1) > \text{Var}(A_2) Var(A1)>Var(A2):0.0467 > 0.02,满足。

计算 E S ( A ) ES(A) ES(A)

- E S ( A 1 ) = exp ⁡ ( 0.3 ) + exp ⁡ ( − 0.2 ) + exp ⁡ ( − 0.1 ) = 3.0734 ES(A_1) = \exp(0.3) + \exp(-0.2) + \exp(-0.1) = 3.0734 ES(A1)=exp(0.3)+exp(0.2)+exp(0.1)=3.0734
- E S ( A 2 ) = exp ⁡ ( 0.2 ) + exp ⁡ ( − 0.1 ) + exp ⁡ ( − 0.1 ) = 3.0310 ES(A_2) = \exp(0.2) + \exp(-0.1) + \exp(-0.1) = 3.0310 ES(A2)=exp(0.2)+exp(0.1)+exp(0.1)=3.0310

结果:

在这个特定区间内满足条件时, M ( q 1 , K ) > M ( q 2 , K ) M(q_1, K) > M(q_2, K) M(q1,K)>M(q2,K)的概率很高,等价于 E S ( A 1 ) > E S ( A 2 ) ES(A_1) > ES(A_2) ES(A1)>ES(A2)

总结来说,这段话进一步细化和验证了在特定区间和条件下,某些查询向量的概率结论,并将其等

五、背景和假设

解释了原命题中 k j ∼ N ( μ , Σ ) k_j \sim N(\mu, \Sigma) kjN(μ,Σ)服从多变量高斯分布的背景,并进一步细化了相关的统计性质,从而将问题等价为一个对数正态分布求和问题。以下是详细的解释:

  1. 多变量高斯分布
    - k j ∼ N ( μ , Σ ) k_j \sim N(\mu, \Sigma) kjN(μ,Σ)表示键向量 k j k_j kj服从均值为 μ \mu μ、协方差矩阵为 Σ \Sigma Σ的多变量高斯分布。

  2. 独立同分布
    - k 1 , … , k n k_1, \ldots, k_n k1,,kn是独立同分布(I.I.D.)的高斯分布向量。这意味着每个 k j k_j kj都是独立抽样的。

  3. Wiener-Khinchin定律

    • 根据Wiener-Khinchin大数定律,当 n → ∞ n \to \infty n时, a i , j = q i k j T d a_{i,j} = \frac{q_i k_j^T}{\sqrt{d}} ai,j=d qikjT是一个一维高斯分布,期望为0。

偏差项的分布

回到我们的定义,偏差项 Δ a i , m \Delta a_{i,m} Δai,m服从以下分布:

- Δ a 1 , m ∼ N ( 0 , σ 1 2 ) \Delta a_{1,m} \sim N(0, \sigma_1^2) Δa1,mN(0,σ12)
- Δ a 2 , m ∼ N ( 0 , σ 2 2 ) \Delta a_{2,m} \sim N(0, \sigma_2^2) Δa2,mN(0,σ22)

对于所有的 m ∈ 1 , … , L K m \in 1, \ldots, L_K m1,,LK,这些偏差项都是从均值为0、方差分别为 σ 1 2 \sigma_1^2 σ12 σ 2 2 \sigma_2^2 σ22的正态分布中抽样的。

等价于对数正态分布求和问题

由于 E S ( A i ) = ∑ j = 1 L K exp ⁡ ( Δ a i , j ) ES(A_i) = \sum_{j=1}^{L_K} \exp(\Delta a_{i,j}) ES(Ai)=j=1LKexp(Δai,j),这就将问题转化为一个对数正态分布求和的问题。具体来说:

  1. 对数正态分布

    • 如果一个随机变量 X X X服从正态分布 N ( μ , σ 2 ) N(\mu, \sigma^2) N(μ,σ2),则 e X e^X eX服从对数正态分布。
  2. 我们的情况

    • 因为 Δ a i , j \Delta a_{i,j} Δai,j服从正态分布 N ( 0 , σ i 2 ) N(0, \sigma_i^2) N(0,σi2),所以 e Δ a i , j e^{\Delta a_{i,j}} eΔai,j服从对数正态分布。
  3. 求和问题

    • 我们的问题是求这些对数正态分布变量的和 E S ( A i ) = ∑ j = 1 L K e Δ a i , j ES(A_i) = \sum_{j=1}^{L_K} e^{\Delta a_{i,j}} ES(Ai)=j=1LKeΔai,j

结论

这个等价性帮助我们利用对数正态分布的性质来分析和解决原问题。在满足某些条件的情况下,我们可以推断 E S ( A 1 ) > E S ( A 2 ) ES(A_1) > ES(A_2) ES(A1)>ES(A2)的概率,并且这个概率与 Var ( A 1 ) − Var ( A 2 ) \text{Var}(A_1) - \text{Var}(A_2) Var(A1)Var(A2)有正相关关系。

举例说明5

假设我们有两个查询向量 q 1 q_1 q1 q 2 q_2 q2对应的键向量:

- Δ a 1 , m ∼ N ( 0 , σ 1 2 ) \Delta a_{1,m} \sim N(0, \sigma_1^2) Δa1,mN(0,σ12)
- Δ a 2 , m ∼ N ( 0 , σ 2 2 ) \Delta a_{2,m} \sim N(0, \sigma_2^2) Δa2,mN(0,σ22)

假设 σ 1 2 = 0.5 \sigma_1^2 = 0.5 σ12=0.5 σ 2 2 = 0.3 \sigma_2^2 = 0.3 σ22=0.3,并且 L K = 3 L_K = 3 LK=3

我们可以模拟生成一些 Δ a i , j \Delta a_{i,j} Δai,j

  • 对于 q 1 q_1 q1 Δ a 1 , 1 ∼ N ( 0 , 0.5 ) \Delta a_{1,1} \sim N(0, 0.5) Δa1,1N(0,0.5), Δ a 1 , 2 ∼ N ( 0 , 0.5 ) \Delta a_{1,2} \sim N(0, 0.5) Δa1,2N(0,0.5), Δ a 1 , 3 ∼ N ( 0 , 0.5 ) \Delta a_{1,3} \sim N(0, 0.5) Δa1,3N(0,0.5)
  • 对于 q 2 q_2 q2 Δ a 2 , 1 ∼ N ( 0 , 0.3 ) \Delta a_{2,1} \sim N(0, 0.3) Δa2,1N(0,0.3), Δ a 2 , 2 ∼ N ( 0 , 0.3 ) \Delta a_{2,2} \sim N(0, 0.3) Δa2,2N(0,0.3), Δ a 2 , 3 ∼ N ( 0 , 0.3 ) \Delta a_{2,3} \sim N(0, 0.3) Δa2,3N(0,0.3)

计算 E S ( A i ) ES(A_i) ES(Ai)

- E S ( A 1 ) = ∑ j = 1 3 e Δ a 1 , j ES(A_1) = \sum_{j=1}^{3} e^{\Delta a_{1,j}} ES(A1)=j=13eΔa1,j
- E S ( A 2 ) = ∑ j = 1 3 e Δ a 2 , j ES(A_2) = \sum_{j=1}^{3} e^{\Delta a_{2,j}} ES(A2)=j=13eΔa2,j

由于 σ 1 2 > σ 2 2 \sigma_1^2 > \sigma_2^2 σ12>σ22,根据我们的命题, E S ( A 1 ) > E S ( A 2 ) ES(A_1) > ES(A_2) ES(A1)>ES(A2)的概率很高。

通过这个例子和解释,我们看到了如何将原始问题转化为对数正态分布求和问题,并利用其性质来推导结论。这为进一步分析和应用提供了一个有力的工具。价地转化为新的度量形式,从而更广泛地应用于实际计算和优化中。

这段话讨论了如何通过近似方法来处理对数正态分布求和问题,并引用了相关的文献来支持其论点。以下是详细解释:

六、对数正态分布求和问题

背景介绍
  1. 对数正态分布:如果一个随机变量 X X X服从正态分布 N ( μ , σ 2 ) N(\mu, \sigma^2) N(μ,σ2),那么 Y = e X Y = e^X Y=eX服从对数正态分布。
  2. 求和问题:我们关注的是多个对数正态分布变量的和,即 E S ( A i ) = ∑ j = 1 L K e Δ a i , j ES(A_i) = \sum_{j=1}^{L_K} e^{\Delta a_{i,j}} ES(Ai)=j=1LKeΔai,j
文献支持
  1. Dufresne (2008)Vargas-Guzman (2005):这些文章介绍了对数正态分布求和问题的历史和背景。
  2. Romeo, Da Costa, and Bardou (2003) 以及 Hcine and Bouallegue (2015):指出在大多数情况下,对数正态分布变量的和仍然可以近似为对数正态分布。

近似对数正态分布的求和

尽管没有一般的概率密度函数(PDF)能准确描述对数正态分布求和,但通过以下方法,我们可以得到一个良好的近似:

  1. 经验法则:求和的对数正态分布仍然近似为对数正态分布。
  2. 中心极限定理:引用 Beaulieu (2011) 的工作,通过应用中心极限定理,可以得到对数正态分布求和的良好近似。

近似结果

根据上述方法,可以得到以下近似结果:

  1. 期望 E ( E S ( A 1 ) ) E(ES(A_1)) E(ES(A1))
    E ( E S ( A 1 ) ) = n e σ 1 2 / 2 E(ES(A_1)) = n e^{\sigma_1^2 / 2} E(ES(A1))=neσ12/2
    其中 n n n是对数正态分布变量的数量(即 L K L_K LK), σ 1 2 \sigma_1^2 σ12是正态分布偏差项的方差。

  2. 方差 Var ( E S ( A 1 ) ) \text{Var}(ES(A_1)) Var(ES(A1))
    Var ( E S ( A 1 ) ) = n e σ 1 2 ( e σ 1 2 − 1 ) \text{Var}(ES(A_1)) = n e^{\sigma_1^2} (e^{\sigma_1^2} - 1) Var(ES(A1))=neσ12(eσ121)

  3. 对于 E S ( A 2 ) ES(A_2) ES(A2)
    E ( E S ( A 2 ) ) = n e σ 2 2 / 2 E(ES(A_2)) = n e^{\sigma_2^2 / 2} E(ES(A2))=neσ22/2
    Var ( E S ( A 2 ) ) = n e σ 2 2 ( e σ 2 2 − 1 ) \text{Var}(ES(A_2)) = n e^{\sigma_2^2} (e^{\sigma_2^2} - 1) Var(ES(A2))=neσ22(eσ221)

总结

通过这些近似,我们可以得出 E S ( A 1 ) ES(A_1) ES(A1) E S ( A 2 ) ES(A_2) ES(A2)的期望和方差。根据这些结果:

  • 如果 σ 1 2 > σ 2 2 \sigma_1^2 > \sigma_2^2 σ12>σ22,则 E ( E S ( A 1 ) ) > E ( E S ( A 2 ) ) E(ES(A_1)) > E(ES(A_2)) E(ES(A1))>E(ES(A2))并且 Var ( E S ( A 1 ) ) > Var ( E S ( A 2 ) ) \text{Var}(ES(A_1)) > \text{Var}(ES(A_2)) Var(ES(A1))>Var(ES(A2))
  • 这意味着在大多数情况下, E S ( A 1 ) ES(A_1) ES(A1) E S ( A 2 ) ES(A_2) ES(A2)更大,且其结果的离散程度也更大。

举例说明6

假设我们有两个数组 A 1 A_1 A1 A 2 A_2 A2的偏差项分别服从正态分布 N ( 0 , σ 1 2 ) N(0, \sigma_1^2) N(0,σ12) N ( 0 , σ 2 2 ) N(0, \sigma_2^2) N(0,σ22),其中:

- σ 1 2 = 0.5 \sigma_1^2 = 0.5 σ12=0.5
- σ 2 2 = 0.3 \sigma_2^2 = 0.3 σ22=0.3
- n = 3 n = 3 n=3

计算期望和方差:

- E ( E S ( A 1 ) ) = 3 e 0.5 / 2 = 3 e 0.25 ≈ 3 ⋅ 1.284 = 3.852 E(ES(A_1)) = 3 e^{0.5 / 2} = 3 e^{0.25} \approx 3 \cdot 1.284 = 3.852 E(ES(A1))=3e0.5/2=3e0.2531.284=3.852
- Var ( E S ( A 1 ) ) = 3 e 0.5 ( e 0.5 − 1 ) = 3 ⋅ 1.648 ⋅ ( 1.648 − 1 ) ≈ 3 ⋅ 1.648 ⋅ 0.648 = 3.203 \text{Var}(ES(A_1)) = 3 e^{0.5} (e^{0.5} - 1) = 3 \cdot 1.648 \cdot (1.648 - 1) \approx 3 \cdot 1.648 \cdot 0.648 = 3.203 Var(ES(A1))=3e0.5(e0.51)=31.648(1.6481)31.6480.648=3.203

- E ( E S ( A 2 ) ) = 3 e 0.3 / 2 = 3 e 0.15 ≈ 3 ⋅ 1.162 = 3.486 E(ES(A_2)) = 3 e^{0.3 / 2} = 3 e^{0.15} \approx 3 \cdot 1.162 = 3.486 E(ES(A2))=3e0.3/2=3e0.1531.162=3.486
- Var ( E S ( A 2 ) ) = 3 e 0.3 ( e 0.3 − 1 ) = 3 ⋅ 1.349 ⋅ ( 1.349 − 1 ) ≈ 3 ⋅ 1.349 ⋅ 0.349 = 1.413 \text{Var}(ES(A_2)) = 3 e^{0.3} (e^{0.3} - 1) = 3 \cdot 1.349 \cdot (1.349 - 1) \approx 3 \cdot 1.349 \cdot 0.349 = 1.413 Var(ES(A2))=3e0.3(e0.31)=31.349(1.3491)31.3490.349=1.413

根据这些计算结果,我们可以看出 E S ( A 1 ) ES(A_1) ES(A1)的期望和方差都大于 E S ( A 2 ) ES(A_2) ES(A2),这验证了我们的结论。

通过这些详细的解释和举例说明,我们可以理解如何通过近似方法处理对数正态分布求和问题,并利用这些结果来支持我们的命题。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值