一、新的符号和定义
-
符号引入:
- 我们定义 a i , j = q i k j T d a_{i,j} = \frac{q_i k_j^T}{\sqrt{d}} ai,j=dqikjT,这里 q i q_i qi是查询向量, k j k_j kj是键向量, d d d是维度。
- 将 a i , j a_{i,j} ai,j组成一个数组 A i = [ a i , 1 , ⋯ , a i , L K ] A_i = [a_{i,1}, \cdots, a_{i,L_K}] Ai=[ai,1,⋯,ai,LK],其中 L K L_K LK是键向量的数量。
-
均值定义:
- 定义 1 L K ∑ j = 1 L K ( q i k j T d ) \frac{1}{L_K} \sum_{j=1}^{L_K} \left(\frac{q_i k_j^T}{\sqrt{d}}\right) LK1∑j=1LK(dqikjT)为 mean ( A i ) \text{mean}(A_i) mean(Ai),即 A i A_i Ai数组的均值。
-
新的最大值定义:
- 定义 M ‾ ( q i , K ) = max ( A i ) − mean ( A i ) \overline{M}(q_i, K) = \max(A_i) - \text{mean}(A_i) M(qi,K)=max(Ai)−mean(Ai),即数组 A i A_i Ai中的最大值减去其均值。这定义了一个新的度量,用于比较不同查询向量的结果。
举例说明1:
假设我们有以下查询向量 q i q_i qi和三个键向量 k 1 , k 2 , k 3 k_1, k_2, k_3 k1,k2,k3,并且它们的维度 d = 2 d = 2 d=2:
- 查询向量 q i = [ 1 , 2 ] q_i = [1, 2] qi=[1,2]
- 键向量 k 1 = [ 2 , 1 ] k_1 = [2, 1] k1=[2,1], k 2 = [ 0 , 1 ] k_2 = [0, 1] k2=[0,1], k 3 = [ 1 , 1 ] k_3 = [1, 1] k3=[1,1]
我们计算 a i , j = q i k j T d a_{i,j} = \frac{q_i k_j^T}{\sqrt{d}} ai,j=dqikjT:
-
a
i
,
1
=
[
1
,
2
]
⋅
[
2
,
1
]
T
2
=
1
⋅
2
+
2
⋅
1
2
=
4
2
=
2
2
a_{i,1} = \frac{[1, 2] \cdot [2, 1]^T}{\sqrt{2}} = \frac{1 \cdot 2 + 2 \cdot 1}{\sqrt{2}} = \frac{4}{\sqrt{2}} = 2\sqrt{2}
ai,1=2[1,2]⋅[2,1]T=21⋅2+2⋅1=24=22
-
a
i
,
2
=
[
1
,
2
]
⋅
[
0
,
1
]
T
2
=
1
⋅
0
+
2
⋅
1
2
=
2
2
=
2
a_{i,2} = \frac{[1, 2] \cdot [0, 1]^T}{\sqrt{2}} = \frac{1 \cdot 0 + 2 \cdot 1}{\sqrt{2}} = \frac{2}{\sqrt{2}} = \sqrt{2}
ai,2=2[1,2]⋅[0,1]T=21⋅0+2⋅1=22=2
-
a
i
,
3
=
[
1
,
2
]
⋅
[
1
,
1
]
T
2
=
1
⋅
1
+
2
⋅
1
2
=
3
2
=
3
2
2
a_{i,3} = \frac{[1, 2] \cdot [1, 1]^T}{\sqrt{2}} = \frac{1 \cdot 1 + 2 \cdot 1}{\sqrt{2}} = \frac{3}{\sqrt{2}} = \frac{3\sqrt{2}}{2}
ai,3=2[1,2]⋅[1,1]T=21⋅1+2⋅1=23=232
得到数组 A i A_i Ai:
A i = [ 2 2 , 2 , 3 2 2 ] A_i = [2\sqrt{2}, \sqrt{2}, \frac{3\sqrt{2}}{2}] Ai=[22,2,232]
计算均值 mean ( A i ) \text{mean}(A_i) mean(Ai):
mean ( A i ) = 1 3 ( 2 2 + 2 + 3 2 2 ) = 1 3 ( 7 2 2 ) = 7 2 6 \text{mean}(A_i) = \frac{1}{3} \left(2\sqrt{2} + \sqrt{2} + \frac{3\sqrt{2}}{2}\right) = \frac{1}{3} \left(\frac{7\sqrt{2}}{2}\right) = \frac{7\sqrt{2}}{6} mean(Ai)=31(22+2+232)=31(272)=672
计算新的最大值度量 M ‾ ( q i , K ) \overline{M}(q_i, K) M(qi,K):
max
(
A
i
)
=
2
2
\max(A_i) = 2\sqrt{2}
max(Ai)=22
M
‾
(
q
i
,
K
)
=
max
(
A
i
)
−
mean
(
A
i
)
=
2
2
−
7
2
6
=
5
2
6
\overline{M}(q_i, K) = \max(A_i) - \text{mean}(A_i) = 2\sqrt{2} - \frac{7\sqrt{2}}{6} = \frac{5\sqrt{2}}{6}
M(qi,K)=max(Ai)−mean(Ai)=22−672=652
通过这个例子,我们看到了如何通过定义和计算 a i , j a_{i,j} ai,j以及新的度量 M ‾ ( q i , K ) \overline{M}(q_i, K) M(qi,K),来简化和比较不同查询向量的最大值特性。这有助于我们在证明中进一步分析和推导概率结论。
这段话提供了 M ( q i , K ) M(q_i, K) M(qi,K)的一个推导过程,利用了对每个组件的分解和对数性质。下面是详细的解释:
二、符号定义和分解
我们首先定义 M ( q i , K ) M(q_i, K) M(qi,K)的每个组件 a i , j a_{i,j} ai,j为:
a i , j = mean ( A i ) + Δ a i , j a_{i,j} = \text{mean}(A_i) + \Delta a_{i,j} ai,j=mean(Ai)+Δai,j
其中, mean ( A i ) \text{mean}(A_i) mean(Ai)是 A i A_i Ai的均值, Δ a i , j \Delta a_{i,j} Δai,j是偏差项。具体的偏差项 Δ a i , j \Delta a_{i,j} Δai,j表示每个 a i , j a_{i,j} ai,j与均值 mean ( A i ) \text{mean}(A_i) mean(Ai)的差异。这里 j = 1 , … , L K j = 1, \ldots, L_K j=1,…,LK。
M ( q i , K ) M(q_i, K) M(qi,K)的推导
- 定义和重写 M ( q i , K ) M(q_i, K) M(qi,K):
M ( q i , K ) = ln ( ∑ j = 1 L K e q i k j T / d ) − 1 L K ∑ j = 1 L K ( q i k j T d ) M(q_i, K) = \ln \left( \sum_{j=1}^{L_K} e^{q_i k_j^T / \sqrt{d}} \right) - \frac{1}{L_K} \sum_{j=1}^{L_K} \left( \frac{q_i k_j^T}{\sqrt{d}} \right) M(qi,K)=ln(∑j=1LKeqikjT/d)−LK1∑j=1LK(dqikjT)
- 利用 a i , j = mean ( A i ) + Δ a i , j a_{i,j} = \text{mean}(A_i) + \Delta a_{i,j} ai,j=mean(Ai)+Δai,j:
将 a i , j a_{i,j} ai,j带入公式中:
M ( q i , K ) = ln ( ∑ j = 1 L K e a i , j ) − mean ( A i ) M(q_i, K) = \ln \left( \sum_{j=1}^{L_K} e^{a_{i,j}} \right) - \text{mean}(A_i) M(qi,K)=ln(∑j=1LKeai,j)−mean(Ai)
因为 a i , j = mean ( A i ) + Δ a i , j a_{i,j} = \text{mean}(A_i) + \Delta a_{i,j} ai,j=mean(Ai)+Δai,j,所以:
M ( q i , K ) = ln ( ∑ j = 1 L K e mean ( A i ) + Δ a i , j ) − mean ( A i ) M(q_i, K) = \ln \left( \sum_{j=1}^{L_K} e^{\text{mean}(A_i) + \Delta a_{i,j}} \right) - \text{mean}(A_i) M(qi,K)=ln(∑j=1LKemean(Ai)+Δai,j)−mean(Ai)
- 利用指数和对数的性质:
M ( q i , K ) = ln ( e mean ( A i ) ∑ j = 1 L K e Δ a i , j ) − mean ( A i ) M(q_i, K) = \ln \left( e^{\text{mean}(A_i)} \sum_{j=1}^{L_K} e^{\Delta a_{i,j}} \right) - \text{mean}(A_i) M(qi,K)=ln(emean(Ai)∑j=1LKeΔai,j)−mean(Ai)
利用对数的性质 ln ( a b ) = ln ( a ) + ln ( b ) \ln(ab) = \ln(a) + \ln(b) ln(ab)=ln(a)+ln(b):
M ( q i , K ) = ln ( e mean ( A i ) ) + ln ( ∑ j = 1 L K e Δ a i , j ) − mean ( A i ) M(q_i, K) = \ln \left( e^{\text{mean}(A_i)} \right) + \ln \left( \sum_{j=1}^{L_K} e^{\Delta a_{i,j}} \right) - \text{mean}(A_i) M(qi,K)=ln(emean(Ai))+ln(∑j=1LKeΔai,j)−mean(Ai)
因为 ln ( e mean ( A i ) ) = mean ( A i ) \ln \left( e^{\text{mean}(A_i)} \right) = \text{mean}(A_i) ln(emean(Ai))=mean(Ai),所以:
M ( q i , K ) = mean ( A i ) + ln ( ∑ j = 1 L K e Δ a i , j ) − mean ( A i ) M(q_i, K) = \text{mean}(A_i) + \ln \left( \sum_{j=1}^{L_K} e^{\Delta a_{i,j}} \right) - \text{mean}(A_i) M(qi,K)=mean(Ai)+ln(∑j=1LKeΔai,j)−mean(Ai)
简化后:
M ( q i , K ) = ln ( ∑ j = 1 L K e Δ a i , j ) M(q_i, K) = \ln \left( \sum_{j=1}^{L_K} e^{\Delta a_{i,j}} \right) M(qi,K)=ln(∑j=1LKeΔai,j)
偏差项和求和
最后,我们提到:
∑ j = 1 L K Δ a i , j = 0 \sum_{j=1}^{L_K} \Delta a_{i,j} = 0 ∑j=1LKΔai,j=0
这意味着偏差项的总和为零。这个条件确保了 Δ a i , j \Delta a_{i,j} Δai,j是对 a i , j a_{i,j} ai,j的均值的偏差。
总结
通过上述步骤,我们成功地将 M ( q i , K ) M(q_i, K) M(qi,K)表达为一个关于偏差项的对数和的公式。这一推导过程表明了如何利用均值和偏差项来简化原始的计算公式,并且通过对数性质得到了一个简洁的表达式。这在进一步的分析和优化中是非常有用的。
举例说明2
假设我们有 L K = 3 L_K = 3 LK=3个键向量 k 1 , k 2 , k 3 k_1, k_2, k_3 k1,k2,k3,并且计算得到 A i = [ a i , 1 , a i , 2 , a i , 3 ] = [ 1.2 , 0.8 , 1.0 ] A_i = [a_{i,1}, a_{i,2}, a_{i,3}] = [1.2, 0.8, 1.0] Ai=[ai,1,ai,2,ai,3]=[1.2,0.8,1.0]。
- 计算均值:
mean ( A i ) = 1.2 + 0.8 + 1.0 3 = 1.0 \text{mean}(A_i) = \frac{1.2 + 0.8 + 1.0}{3} = 1.0 mean(Ai)=31.2+0.8+1.0=1.0
- 计算偏差项:
Δ
a
i
,
1
=
1.2
−
1.0
=
0.2
\Delta a_{i,1} = 1.2 - 1.0 = 0.2
Δai,1=1.2−1.0=0.2
Δ
a
i
,
2
=
0.8
−
1.0
=
−
0.2
\Delta a_{i,2} = 0.8 - 1.0 = -0.2
Δai,2=0.8−1.0=−0.2
Δ
a
i
,
3
=
1.0
−
1.0
=
0
\Delta a_{i,3} = 1.0 - 1.0 = 0
Δai,3=1.0−1.0=0
- 验证偏差项和为零:
Δ a i , 1 + Δ a i , 2 + Δ a i , 3 = 0.2 + ( − 0.2 ) + 0 = 0 \Delta a_{i,1} + \Delta a_{i,2} + \Delta a_{i,3} = 0.2 + (-0.2) + 0 = 0 Δai,1+Δai,2+Δai,3=0.2+(−0.2)+0=0
- 计算 M ( q i , K ) M(q_i, K) M(qi,K):
M ( q i , K ) = ln ( e 0.2 + e − 0.2 + e 0 ) = ln ( e 0.2 + e − 0.2 + 1 ) M(q_i, K) = \ln \left( e^{0.2} + e^{-0.2} + e^0 \right) = \ln \left( e^{0.2} + e^{-0.2} + 1 \right) M(qi,K)=ln(e0.2+e−0.2+e0)=ln(e0.2+e−0.2+1)
使用具体数值计算:
e
0.2
≈
1.221
e^{0.2} \approx 1.221
e0.2≈1.221
e
−
0.2
≈
0.818
e^{-0.2} \approx 0.818
e−0.2≈0.818
所以:
M ( q i , K ) = ln ( 1.221 + 0.818 + 1 ) = ln ( 3.039 ) ≈ 1.11 M(q_i, K) = \ln (1.221 + 0.818 + 1) = \ln (3.039) \approx 1.11 M(qi,K)=ln(1.221+0.818+1)=ln(3.039)≈1.11
通过这个例子,我们展示了如何从
A
i
A_i
Ai计算得到
M
(
q
i
,
K
)
M(q_i, K)
M(qi,K)的过程。
这段话重新定义并总结了前述命题,使用新的符号和等价形式来表达结论。下面是详细的解释:
三、新函数定义
我们定义函数 E S ( A i ) = ∑ j = 1 L K exp ( Δ a i , j ) ES(A_i) = \sum_{j=1}^{L_K} \exp(\Delta a_{i,j}) ES(Ai)=∑j=1LKexp(Δai,j),这相当于定义 A i = [ Δ a i , 1 , ⋯ , Δ a i , L K ] A_i = [\Delta a_{i,1}, \cdots, \Delta a_{i,L_K}] Ai=[Δai,1,⋯,Δai,LK]。这样,我们可以立即将命题改写为一个等价形式:
等价形式的命题
对于任意的 A 1 A_1 A1和 A 2 A_2 A2,如果满足以下两个条件:
1.
max
(
A
1
)
−
mean
(
A
1
)
≥
max
(
A
2
)
−
mean
(
A
2
)
\max(A_1) - \text{mean}(A_1) \geq \max(A_2) - \text{mean}(A_2)
max(A1)−mean(A1)≥max(A2)−mean(A2)
2.
Var
(
A
1
)
>
Var
(
A
2
)
\text{Var}(A_1) > \text{Var}(A_2)
Var(A1)>Var(A2)
那么,我们可以将原始结论重新表述为一个更通用的形式,即:
E S ( A 1 ) > E S ( A 2 ) ES(A_1) > ES(A_2) ES(A1)>ES(A2)
并且这个概率与 Var ( A 1 ) − Var ( A 2 ) \text{Var}(A_1) - \text{Var}(A_2) Var(A1)−Var(A2)有正相关关系。
详细解释和举例说明
1. 函数 E S ( A i ) ES(A_i) ES(Ai)的定义
函数 E S ( A i ) = ∑ j = 1 L K exp ( Δ a i , j ) ES(A_i) = \sum_{j=1}^{L_K} \exp(\Delta a_{i,j}) ES(Ai)=∑j=1LKexp(Δai,j)计算的是 Δ a i , j \Delta a_{i,j} Δai,j的指数和。这提供了一个度量,用来比较不同 A i A_i Ai的大小。
2. 新的命题条件
-
条件1: max ( A 1 ) − mean ( A 1 ) ≥ max ( A 2 ) − mean ( A 2 ) \max(A_1) - \text{mean}(A_1) \geq \max(A_2) - \text{mean}(A_2) max(A1)−mean(A1)≥max(A2)−mean(A2)
这个条件意味着 A 1 A_1 A1的最大值减去均值的结果大于或等于 A 2 A_2 A2的同样计算结果。 -
条件2: Var ( A 1 ) > Var ( A 2 ) \text{Var}(A_1) > \text{Var}(A_2) Var(A1)>Var(A2)
这个条件意味着 A 1 A_1 A1的方差大于 A 2 A_2 A2的方差。
3. 结论
根据这些条件,我们可以得出:
E S ( A 1 ) > E S ( A 2 ) ES(A_1) > ES(A_2) ES(A1)>ES(A2)
并且,随着 Var ( A 1 ) − Var ( A 2 ) \text{Var}(A_1) - \text{Var}(A_2) Var(A1)−Var(A2)的增加,这个结论的概率也会增加。
举例说明3
假设我们有两个数组 A 1 A_1 A1和 A 2 A_2 A2:
-
A
1
=
[
Δ
a
1
,
1
,
Δ
a
1
,
2
,
Δ
a
1
,
3
]
=
[
0.3
,
−
0.2
,
−
0.1
]
A_1 = [\Delta a_{1,1}, \Delta a_{1,2}, \Delta a_{1,3}] = [0.3, -0.2, -0.1]
A1=[Δa1,1,Δa1,2,Δa1,3]=[0.3,−0.2,−0.1]
-
A
2
=
[
Δ
a
2
,
1
,
Δ
a
2
,
2
,
Δ
a
2
,
3
]
=
[
0.2
,
−
0.1
,
−
0.1
]
A_2 = [\Delta a_{2,1}, \Delta a_{2,2}, \Delta a_{2,3}] = [0.2, -0.1, -0.1]
A2=[Δa2,1,Δa2,2,Δa2,3]=[0.2,−0.1,−0.1]
计算它们的最大值减去均值:
-
max
(
A
1
)
−
mean
(
A
1
)
=
0.3
−
0.3
−
0.2
−
0.1
3
=
0.3
−
0
=
0.3
\max(A_1) - \text{mean}(A_1) = 0.3 - \frac{0.3 - 0.2 - 0.1}{3} = 0.3 - 0 = 0.3
max(A1)−mean(A1)=0.3−30.3−0.2−0.1=0.3−0=0.3
-
max
(
A
2
)
−
mean
(
A
2
)
=
0.2
−
0.2
−
0.1
−
0.1
3
=
0.2
−
0
=
0.2
\max(A_2) - \text{mean}(A_2) = 0.2 - \frac{0.2 - 0.1 - 0.1}{3} = 0.2 - 0 = 0.2
max(A2)−mean(A2)=0.2−30.2−0.1−0.1=0.2−0=0.2
所以条件1满足。
计算它们的方差:
-
Var
(
A
1
)
=
(
0.3
−
0
)
2
+
(
−
0.2
−
0
)
2
+
(
−
0.1
−
0
)
2
3
=
0.09
+
0.04
+
0.01
3
=
0.0467
\text{Var}(A_1) = \frac{(0.3 - 0)^2 + (-0.2 - 0)^2 + (-0.1 - 0)^2}{3} = \frac{0.09 + 0.04 + 0.01}{3} = 0.0467
Var(A1)=3(0.3−0)2+(−0.2−0)2+(−0.1−0)2=30.09+0.04+0.01=0.0467
-
Var
(
A
2
)
=
(
0.2
−
0
)
2
+
(
−
0.1
−
0
)
2
+
(
−
0.1
−
0
)
2
3
=
0.04
+
0.01
+
0.01
3
=
0.02
\text{Var}(A_2) = \frac{(0.2 - 0)^2 + (-0.1 - 0)^2 + (-0.1 - 0)^2}{3} = \frac{0.04 + 0.01 + 0.01}{3} = 0.02
Var(A2)=3(0.2−0)2+(−0.1−0)2+(−0.1−0)2=30.04+0.01+0.01=0.02
所以条件2也满足。
计算 E S ( A i ) ES(A_i) ES(Ai):
-
E
S
(
A
1
)
=
exp
(
0.3
)
+
exp
(
−
0.2
)
+
exp
(
−
0.1
)
=
1.3499
+
0.8187
+
0.9048
=
3.0734
ES(A_1) = \exp(0.3) + \exp(-0.2) + \exp(-0.1) = 1.3499 + 0.8187 + 0.9048 = 3.0734
ES(A1)=exp(0.3)+exp(−0.2)+exp(−0.1)=1.3499+0.8187+0.9048=3.0734
-
E
S
(
A
2
)
=
exp
(
0.2
)
+
exp
(
−
0.1
)
+
exp
(
−
0.1
)
=
1.2214
+
0.9048
+
0.9048
=
3.0310
ES(A_2) = \exp(0.2) + \exp(-0.1) + \exp(-0.1) = 1.2214 + 0.9048 + 0.9048 = 3.0310
ES(A2)=exp(0.2)+exp(−0.1)+exp(−0.1)=1.2214+0.9048+0.9048=3.0310
结果显示 E S ( A 1 ) > E S ( A 2 ) ES(A_1) > ES(A_2) ES(A1)>ES(A2),且 Var ( A 1 ) > Var ( A 2 ) \text{Var}(A_1) > \text{Var}(A_2) Var(A1)>Var(A2),符合命题的结论。
通过这个例子,我们可以看到,在满足条件的情况下, A 1 A_1 A1的指数和 E S ( A 1 ) ES(A_1) ES(A1)大于 A 2 A_2 A2的指数和 E S ( A 2 ) ES(A_2) ES(A2),并且这个结果的概率随着 Var ( A 1 ) − Var ( A 2 ) \text{Var}(A_1) - \text{Var}(A_2) Var(A1)−Var(A2)的增加而增加。这段话进一步讨论了一种细化的情况,重新强调了前述结论在特定条件下的适用性,并提出了等价形式。下面是详细解释:
四、前提条件和细化情况
我们考虑一种细化的情况,对于任意的 M m = max i M ( q i , K ) M_m = \max_i M(q_i, K) Mm=maxiM(qi,K),存在一个 κ > 0 \kappa > 0 κ>0使得在区间 { q ∣ M ( q , K ) ∈ [ M m , M m − κ ) } \{ q \mid M(q, K) \in [M_m, M_m - \kappa) \} {q∣M(q,K)∈[Mm,Mm−κ)}内,满足以下条件的 q i q_i qi和 q j q_j qj:
1.
max
(
A
1
)
−
mean
(
A
1
)
≥
max
(
A
2
)
−
mean
(
A
2
)
\max(A_1) - \text{mean}(A_1) \geq \max(A_2) - \text{mean}(A_2)
max(A1)−mean(A1)≥max(A2)−mean(A2)
2.
Var
(
A
1
)
>
Var
(
A
2
)
\text{Var}(A_1) > \text{Var}(A_2)
Var(A1)>Var(A2)
高概率结论
在满足上述条件的情况下,我们有很高的概率 M ( q 1 , K ) > M ( q 2 , K ) M(q_1, K) > M(q_2, K) M(q1,K)>M(q2,K),这等价于 E S ( A 1 ) > E S ( A 2 ) ES(A_1) > ES(A_2) ES(A1)>ES(A2)。
详细解释
-
前提条件 M m M_m Mm:
- M m = max i M ( q i , K ) M_m = \max_i M(q_i, K) Mm=maxiM(qi,K)表示所有查询向量 q i q_i qi与键向量 K K K计算出的最大值。- 存在一个 κ > 0 \kappa > 0 κ>0,使得我们只考虑 M ( q , K ) M(q, K) M(q,K)落在区间 [ M m , M m − κ ) [M_m, M_m - \kappa) [Mm,Mm−κ)内的 q q q。
-
区间内的比较:
- 对于在这个区间内的任意 q i q_i qi和 q j q_j qj,如果 max ( A 1 ) − mean ( A 1 ) ≥ max ( A 2 ) − mean ( A 2 ) \max(A_1) - \text{mean}(A_1) \geq \max(A_2) - \text{mean}(A_2) max(A1)−mean(A1)≥max(A2)−mean(A2)并且 Var ( A 1 ) > Var ( A 2 ) \text{Var}(A_1) > \text{Var}(A_2) Var(A1)>Var(A2),我们有很高的概率 M ( q 1 , K ) > M ( q 2 , K ) M(q_1, K) > M(q_2, K) M(q1,K)>M(q2,K)。
-
等价结论:
- 由于前述证明 M ( q , K ) M(q, K) M(q,K)与 E S ( A ) ES(A) ES(A)的关系,这个结论等价于 E S ( A 1 ) > E S ( A 2 ) ES(A_1) > ES(A_2) ES(A1)>ES(A2)。
举例说明4
假设我们有两个查询向量 q 1 q_1 q1和 q 2 q_2 q2,它们对应的数组 A 1 A_1 A1和 A 2 A_2 A2分别是:
-
A
1
=
[
0.3
,
−
0.2
,
−
0.1
]
A_1 = [0.3, -0.2, -0.1]
A1=[0.3,−0.2,−0.1]
-
A
2
=
[
0.2
,
−
0.1
,
−
0.1
]
A_2 = [0.2, -0.1, -0.1]
A2=[0.2,−0.1,−0.1]
计算 max ( A ) − mean ( A ) \max(A) - \text{mean}(A) max(A)−mean(A)和方差:
-
对 A 1 A_1 A1:
- max ( A 1 ) = 0.3 \max(A_1) = 0.3 max(A1)=0.3
- mean ( A 1 ) = 0.3 − 0.2 − 0.1 3 = 0 \text{mean}(A_1) = \frac{0.3 - 0.2 - 0.1}{3} = 0 mean(A1)=30.3−0.2−0.1=0
- max ( A 1 ) − mean ( A 1 ) = 0.3 − 0 = 0.3 \max(A_1) - \text{mean}(A_1) = 0.3 - 0 = 0.3 max(A1)−mean(A1)=0.3−0=0.3
- Var ( A 1 ) = ( 0.3 − 0 ) 2 + ( − 0.2 − 0 ) 2 + ( − 0.1 − 0 ) 2 3 = 0.0467 \text{Var}(A_1) = \frac{(0.3 - 0)^2 + (-0.2 - 0)^2 + (-0.1 - 0)^2}{3} = 0.0467 Var(A1)=3(0.3−0)2+(−0.2−0)2+(−0.1−0)2=0.0467 -
对 A 2 A_2 A2:
- max ( A 2 ) = 0.2 \max(A_2) = 0.2 max(A2)=0.2
- mean ( A 2 ) = 0.2 − 0.1 − 0.1 3 = 0 \text{mean}(A_2) = \frac{0.2 - 0.1 - 0.1}{3} = 0 mean(A2)=30.2−0.1−0.1=0
- max ( A 2 ) − mean ( A 2 ) = 0.2 − 0 = 0.2 \max(A_2) - \text{mean}(A_2) = 0.2 - 0 = 0.2 max(A2)−mean(A2)=0.2−0=0.2
- Var ( A 2 ) = 0.02 \text{Var}(A_2) = 0.02 Var(A2)=0.02
比较条件:
-
max
(
A
1
)
−
mean
(
A
1
)
≥
max
(
A
2
)
−
mean
(
A
2
)
\max(A_1) - \text{mean}(A_1) \geq \max(A_2) - \text{mean}(A_2)
max(A1)−mean(A1)≥max(A2)−mean(A2):0.3 ≥ 0.2,满足。
-
Var
(
A
1
)
>
Var
(
A
2
)
\text{Var}(A_1) > \text{Var}(A_2)
Var(A1)>Var(A2):0.0467 > 0.02,满足。
计算 E S ( A ) ES(A) ES(A):
-
E
S
(
A
1
)
=
exp
(
0.3
)
+
exp
(
−
0.2
)
+
exp
(
−
0.1
)
=
3.0734
ES(A_1) = \exp(0.3) + \exp(-0.2) + \exp(-0.1) = 3.0734
ES(A1)=exp(0.3)+exp(−0.2)+exp(−0.1)=3.0734
-
E
S
(
A
2
)
=
exp
(
0.2
)
+
exp
(
−
0.1
)
+
exp
(
−
0.1
)
=
3.0310
ES(A_2) = \exp(0.2) + \exp(-0.1) + \exp(-0.1) = 3.0310
ES(A2)=exp(0.2)+exp(−0.1)+exp(−0.1)=3.0310
结果:
在这个特定区间内满足条件时, M ( q 1 , K ) > M ( q 2 , K ) M(q_1, K) > M(q_2, K) M(q1,K)>M(q2,K)的概率很高,等价于 E S ( A 1 ) > E S ( A 2 ) ES(A_1) > ES(A_2) ES(A1)>ES(A2)。
总结来说,这段话进一步细化和验证了在特定区间和条件下,某些查询向量的概率结论,并将其等
五、背景和假设
解释了原命题中 k j ∼ N ( μ , Σ ) k_j \sim N(\mu, \Sigma) kj∼N(μ,Σ)服从多变量高斯分布的背景,并进一步细化了相关的统计性质,从而将问题等价为一个对数正态分布求和问题。以下是详细的解释:
-
多变量高斯分布:
- k j ∼ N ( μ , Σ ) k_j \sim N(\mu, \Sigma) kj∼N(μ,Σ)表示键向量 k j k_j kj服从均值为 μ \mu μ、协方差矩阵为 Σ \Sigma Σ的多变量高斯分布。 -
独立同分布:
- k 1 , … , k n k_1, \ldots, k_n k1,…,kn是独立同分布(I.I.D.)的高斯分布向量。这意味着每个 k j k_j kj都是独立抽样的。 -
Wiener-Khinchin定律:
- 根据Wiener-Khinchin大数定律,当 n → ∞ n \to \infty n→∞时, a i , j = q i k j T d a_{i,j} = \frac{q_i k_j^T}{\sqrt{d}} ai,j=dqikjT是一个一维高斯分布,期望为0。
偏差项的分布
回到我们的定义,偏差项 Δ a i , m \Delta a_{i,m} Δai,m服从以下分布:
-
Δ
a
1
,
m
∼
N
(
0
,
σ
1
2
)
\Delta a_{1,m} \sim N(0, \sigma_1^2)
Δa1,m∼N(0,σ12)
-
Δ
a
2
,
m
∼
N
(
0
,
σ
2
2
)
\Delta a_{2,m} \sim N(0, \sigma_2^2)
Δa2,m∼N(0,σ22)
对于所有的 m ∈ 1 , … , L K m \in 1, \ldots, L_K m∈1,…,LK,这些偏差项都是从均值为0、方差分别为 σ 1 2 \sigma_1^2 σ12和 σ 2 2 \sigma_2^2 σ22的正态分布中抽样的。
等价于对数正态分布求和问题
由于 E S ( A i ) = ∑ j = 1 L K exp ( Δ a i , j ) ES(A_i) = \sum_{j=1}^{L_K} \exp(\Delta a_{i,j}) ES(Ai)=∑j=1LKexp(Δai,j),这就将问题转化为一个对数正态分布求和的问题。具体来说:
-
对数正态分布:
- 如果一个随机变量 X X X服从正态分布 N ( μ , σ 2 ) N(\mu, \sigma^2) N(μ,σ2),则 e X e^X eX服从对数正态分布。
-
我们的情况:
- 因为 Δ a i , j \Delta a_{i,j} Δai,j服从正态分布 N ( 0 , σ i 2 ) N(0, \sigma_i^2) N(0,σi2),所以 e Δ a i , j e^{\Delta a_{i,j}} eΔai,j服从对数正态分布。
-
求和问题:
- 我们的问题是求这些对数正态分布变量的和 E S ( A i ) = ∑ j = 1 L K e Δ a i , j ES(A_i) = \sum_{j=1}^{L_K} e^{\Delta a_{i,j}} ES(Ai)=∑j=1LKeΔai,j。
结论
这个等价性帮助我们利用对数正态分布的性质来分析和解决原问题。在满足某些条件的情况下,我们可以推断 E S ( A 1 ) > E S ( A 2 ) ES(A_1) > ES(A_2) ES(A1)>ES(A2)的概率,并且这个概率与 Var ( A 1 ) − Var ( A 2 ) \text{Var}(A_1) - \text{Var}(A_2) Var(A1)−Var(A2)有正相关关系。
举例说明5
假设我们有两个查询向量 q 1 q_1 q1和 q 2 q_2 q2对应的键向量:
-
Δ
a
1
,
m
∼
N
(
0
,
σ
1
2
)
\Delta a_{1,m} \sim N(0, \sigma_1^2)
Δa1,m∼N(0,σ12)
-
Δ
a
2
,
m
∼
N
(
0
,
σ
2
2
)
\Delta a_{2,m} \sim N(0, \sigma_2^2)
Δa2,m∼N(0,σ22)
假设 σ 1 2 = 0.5 \sigma_1^2 = 0.5 σ12=0.5, σ 2 2 = 0.3 \sigma_2^2 = 0.3 σ22=0.3,并且 L K = 3 L_K = 3 LK=3。
我们可以模拟生成一些 Δ a i , j \Delta a_{i,j} Δai,j:
- 对于 q 1 q_1 q1: Δ a 1 , 1 ∼ N ( 0 , 0.5 ) \Delta a_{1,1} \sim N(0, 0.5) Δa1,1∼N(0,0.5), Δ a 1 , 2 ∼ N ( 0 , 0.5 ) \Delta a_{1,2} \sim N(0, 0.5) Δa1,2∼N(0,0.5), Δ a 1 , 3 ∼ N ( 0 , 0.5 ) \Delta a_{1,3} \sim N(0, 0.5) Δa1,3∼N(0,0.5)
- 对于 q 2 q_2 q2: Δ a 2 , 1 ∼ N ( 0 , 0.3 ) \Delta a_{2,1} \sim N(0, 0.3) Δa2,1∼N(0,0.3), Δ a 2 , 2 ∼ N ( 0 , 0.3 ) \Delta a_{2,2} \sim N(0, 0.3) Δa2,2∼N(0,0.3), Δ a 2 , 3 ∼ N ( 0 , 0.3 ) \Delta a_{2,3} \sim N(0, 0.3) Δa2,3∼N(0,0.3)
计算 E S ( A i ) ES(A_i) ES(Ai):
-
E
S
(
A
1
)
=
∑
j
=
1
3
e
Δ
a
1
,
j
ES(A_1) = \sum_{j=1}^{3} e^{\Delta a_{1,j}}
ES(A1)=∑j=13eΔa1,j
-
E
S
(
A
2
)
=
∑
j
=
1
3
e
Δ
a
2
,
j
ES(A_2) = \sum_{j=1}^{3} e^{\Delta a_{2,j}}
ES(A2)=∑j=13eΔa2,j
由于 σ 1 2 > σ 2 2 \sigma_1^2 > \sigma_2^2 σ12>σ22,根据我们的命题, E S ( A 1 ) > E S ( A 2 ) ES(A_1) > ES(A_2) ES(A1)>ES(A2)的概率很高。
通过这个例子和解释,我们看到了如何将原始问题转化为对数正态分布求和问题,并利用其性质来推导结论。这为进一步分析和应用提供了一个有力的工具。价地转化为新的度量形式,从而更广泛地应用于实际计算和优化中。
这段话讨论了如何通过近似方法来处理对数正态分布求和问题,并引用了相关的文献来支持其论点。以下是详细解释:
六、对数正态分布求和问题
背景介绍
- 对数正态分布:如果一个随机变量 X X X服从正态分布 N ( μ , σ 2 ) N(\mu, \sigma^2) N(μ,σ2),那么 Y = e X Y = e^X Y=eX服从对数正态分布。
- 求和问题:我们关注的是多个对数正态分布变量的和,即 E S ( A i ) = ∑ j = 1 L K e Δ a i , j ES(A_i) = \sum_{j=1}^{L_K} e^{\Delta a_{i,j}} ES(Ai)=∑j=1LKeΔai,j。
文献支持
- Dufresne (2008) 和 Vargas-Guzman (2005):这些文章介绍了对数正态分布求和问题的历史和背景。
- Romeo, Da Costa, and Bardou (2003) 以及 Hcine and Bouallegue (2015):指出在大多数情况下,对数正态分布变量的和仍然可以近似为对数正态分布。
近似对数正态分布的求和
尽管没有一般的概率密度函数(PDF)能准确描述对数正态分布求和,但通过以下方法,我们可以得到一个良好的近似:
- 经验法则:求和的对数正态分布仍然近似为对数正态分布。
- 中心极限定理:引用 Beaulieu (2011) 的工作,通过应用中心极限定理,可以得到对数正态分布求和的良好近似。
近似结果
根据上述方法,可以得到以下近似结果:
-
期望 E ( E S ( A 1 ) ) E(ES(A_1)) E(ES(A1)):
E ( E S ( A 1 ) ) = n e σ 1 2 / 2 E(ES(A_1)) = n e^{\sigma_1^2 / 2} E(ES(A1))=neσ12/2
其中 n n n是对数正态分布变量的数量(即 L K L_K LK), σ 1 2 \sigma_1^2 σ12是正态分布偏差项的方差。 -
方差 Var ( E S ( A 1 ) ) \text{Var}(ES(A_1)) Var(ES(A1)):
Var ( E S ( A 1 ) ) = n e σ 1 2 ( e σ 1 2 − 1 ) \text{Var}(ES(A_1)) = n e^{\sigma_1^2} (e^{\sigma_1^2} - 1) Var(ES(A1))=neσ12(eσ12−1) -
对于 E S ( A 2 ) ES(A_2) ES(A2):
E ( E S ( A 2 ) ) = n e σ 2 2 / 2 E(ES(A_2)) = n e^{\sigma_2^2 / 2} E(ES(A2))=neσ22/2
Var ( E S ( A 2 ) ) = n e σ 2 2 ( e σ 2 2 − 1 ) \text{Var}(ES(A_2)) = n e^{\sigma_2^2} (e^{\sigma_2^2} - 1) Var(ES(A2))=neσ22(eσ22−1)
总结
通过这些近似,我们可以得出 E S ( A 1 ) ES(A_1) ES(A1)和 E S ( A 2 ) ES(A_2) ES(A2)的期望和方差。根据这些结果:
- 如果 σ 1 2 > σ 2 2 \sigma_1^2 > \sigma_2^2 σ12>σ22,则 E ( E S ( A 1 ) ) > E ( E S ( A 2 ) ) E(ES(A_1)) > E(ES(A_2)) E(ES(A1))>E(ES(A2))并且 Var ( E S ( A 1 ) ) > Var ( E S ( A 2 ) ) \text{Var}(ES(A_1)) > \text{Var}(ES(A_2)) Var(ES(A1))>Var(ES(A2))。
- 这意味着在大多数情况下, E S ( A 1 ) ES(A_1) ES(A1)比 E S ( A 2 ) ES(A_2) ES(A2)更大,且其结果的离散程度也更大。
举例说明6
假设我们有两个数组 A 1 A_1 A1和 A 2 A_2 A2的偏差项分别服从正态分布 N ( 0 , σ 1 2 ) N(0, \sigma_1^2) N(0,σ12)和 N ( 0 , σ 2 2 ) N(0, \sigma_2^2) N(0,σ22),其中:
-
σ
1
2
=
0.5
\sigma_1^2 = 0.5
σ12=0.5
-
σ
2
2
=
0.3
\sigma_2^2 = 0.3
σ22=0.3
-
n
=
3
n = 3
n=3
计算期望和方差:
-
E
(
E
S
(
A
1
)
)
=
3
e
0.5
/
2
=
3
e
0.25
≈
3
⋅
1.284
=
3.852
E(ES(A_1)) = 3 e^{0.5 / 2} = 3 e^{0.25} \approx 3 \cdot 1.284 = 3.852
E(ES(A1))=3e0.5/2=3e0.25≈3⋅1.284=3.852
-
Var
(
E
S
(
A
1
)
)
=
3
e
0.5
(
e
0.5
−
1
)
=
3
⋅
1.648
⋅
(
1.648
−
1
)
≈
3
⋅
1.648
⋅
0.648
=
3.203
\text{Var}(ES(A_1)) = 3 e^{0.5} (e^{0.5} - 1) = 3 \cdot 1.648 \cdot (1.648 - 1) \approx 3 \cdot 1.648 \cdot 0.648 = 3.203
Var(ES(A1))=3e0.5(e0.5−1)=3⋅1.648⋅(1.648−1)≈3⋅1.648⋅0.648=3.203
-
E
(
E
S
(
A
2
)
)
=
3
e
0.3
/
2
=
3
e
0.15
≈
3
⋅
1.162
=
3.486
E(ES(A_2)) = 3 e^{0.3 / 2} = 3 e^{0.15} \approx 3 \cdot 1.162 = 3.486
E(ES(A2))=3e0.3/2=3e0.15≈3⋅1.162=3.486
-
Var
(
E
S
(
A
2
)
)
=
3
e
0.3
(
e
0.3
−
1
)
=
3
⋅
1.349
⋅
(
1.349
−
1
)
≈
3
⋅
1.349
⋅
0.349
=
1.413
\text{Var}(ES(A_2)) = 3 e^{0.3} (e^{0.3} - 1) = 3 \cdot 1.349 \cdot (1.349 - 1) \approx 3 \cdot 1.349 \cdot 0.349 = 1.413
Var(ES(A2))=3e0.3(e0.3−1)=3⋅1.349⋅(1.349−1)≈3⋅1.349⋅0.349=1.413
根据这些计算结果,我们可以看出 E S ( A 1 ) ES(A_1) ES(A1)的期望和方差都大于 E S ( A 2 ) ES(A_2) ES(A2),这验证了我们的结论。
通过这些详细的解释和举例说明,我们可以理解如何通过近似方法处理对数正态分布求和问题,并利用这些结果来支持我们的命题。