[1] 在其 appendix B 中证 Lemma 7 时说由于 ( 1 − η s Λ ) I ≺ Z s ≺ ( 1 − η s λ ) I \left(1-\eta_s \Lambda\right) I \prec Z_s \prec\left(1-\eta_s \lambda\right) I (1−ηsΛ)I≺Zs≺(1−ηsλ)I,直接可得 (7) 式,这里对 lemma 7 的证明做注。
[1] 中相关定义: h j ( Λ ) ≤ ∥ Δ θ − j ∥ ≤ h j ( λ ) ( 7 ) Δ θ − j : = η π ( j ) ∣ S π ( j ) ∣ Z T − 1 Z T − 2 ⋯ Z π ( j ) + 1 g ( z j ; θ [ π ( j ) ] ) ( a ) h j ( a ) : = η π ( j ) ∣ S π ( j ) ∣ ∏ s = π ( j ) + 1 T − 1 ( 1 − η s a ) ∥ g ( z j ; θ [ π ( j ) ] ) ∥ ( b ) Z t : = I − η t H [ t ] H [ t ] : = 1 ∣ S t ∣ ∑ i ∈ S t ∇ θ 2 ℓ ( z i ; θ [ t ] ) ( b a t c h 平均 H e s s i a n ) g ( z ; θ ) : = ∇ θ ℓ ( z ; θ ) ( 梯度 ) \begin{aligned} & h_j(\Lambda) \leq\left\|\Delta \theta_{-j}\right\| \leq h_j(\lambda) & (7) \\ \Delta \theta_{-j} &:= \frac{\eta_{\pi(j)}}{\left|S_{\pi(j)}\right|} Z_{T-1} Z_{T-2} \cdots Z_{\pi(j)+1} g\left(z_j ; \theta^{[\pi(j)]}\right) & (a) \\ h_j(a) &:=\frac{\eta_{\pi(j)}}{\left|S_{\pi(j)}\right|} \prod_{s=\pi(j)+1}^{T-1}\left(1-\eta_s a\right)\left\|g\left(z_j ; \theta^{[\pi(j)]}\right)\right\| & (b) \\ Z_t & := I-\eta_t H^{[t]} \\ H^{[t]} & := \frac{1}{\left|S_t\right|} \sum_{i \in S_t} \nabla_\theta^2 \ell\left(z_i ; \theta^{[t]}\right) & (batch平均Hessian) \\ g(z ; \theta) &:= \nabla_\theta \ell(z ; \theta) & (梯度) \end{aligned} Δθ−jhj(a)ZtH[t]g(z;θ)hj(Λ)≤∥Δθ−j∥≤hj(λ):= Sπ(j) ηπ(j)ZT−1ZT−2⋯Zπ(j)+1g(zj;θ[π(j)]):= Sπ(j) ηπ(j)s=π(j)+1∏T−1(1−ηsa) g(zj;θ[π(j)]) :=I−ηtH[t]:=∣St∣1i∈St∑∇θ2ℓ(zi;θ[t]):=∇θℓ(z;θ)(7)(a)(b)(batch平均Hessian)(梯度) 其中(几个此处出现了但不用管的量):
- S t S_t St 表示第 t 步优化(即训练、梯度下降)的 mini-batch;
- η t \eta_t ηt 是此步的 learning rate;
- π ( j ) \pi(j) π(j) 表示 instance z j z_j zj 出现的那个 step(lemma 7 是用来证 theorem 5 & 6 的,而它们都是在 1 epoch 的情景下,每个 instance 只出现一次);
- T 是一个 epoch 的 step 数。
[1] 中三个假设:
- loss 函数 l ( z ; θ ) l(z;\theta) l(z;θ) 二阶可导,即 Hessian 存在;
- ∃ λ , Λ > 0 \exist \lambda, \Lambda > 0 ∃λ,Λ>0,对 ∀ z , θ \forall z, \theta ∀z,θ,有 λ I ≺ ∇ θ 2 ℓ ( z ; θ ) ≺ Λ I \lambda I \prec \nabla_\theta^2 \ell(z ; \theta) \prec \Lambda I λI≺∇θ2ℓ(z;θ)≺ΛI
- η s ≤ 1 / Λ \eta_s \leq 1/\Lambda ηs≤1/Λ
其中 ≺ \prec ≺ 的含义文章没解释。经查,它用在向量上表示 majorization[2],但第二条假设是用在矩阵上。经 [3] 评论提醒,可能指 Loewner 偏序[4]:
- A ≻ B A\succ B A≻B 表示 A − B A-B A−B 正定
- A ⪰ B A\succeq B A⪰B 则表示 A − B A-B A−B 半正定
(半)正定阵的相关内容可参考 [5,6]。[4] 用 >、 ≥ \geq ≥ 表示正定、半正定,[6] 则用 ≻ , ⪰ \succ, \succeq ≻,⪰。正定阵是 Hermitian 阵[7]的特例,是对对称矩阵[8]来谈的,而 Hessian 矩阵[9](二阶导)是对称矩阵。
解释 lemma 7 的证明要用到正定阵的几点性质。若 A、B 都正定,则:
- ∀ x ≠ 0 , x T A x > 0 \forall x \neq 0, x^TAx>0 ∀x=0,xTAx>0(正定阵定义)
- A + B、ABA、BAB 都正定,若 AB = BA,则 AB 也正定;
- A ≻ B ∧ B ≻ C ⇒ A ≻ C A \succ B \wedge B \succ C \Rightarrow A \succ C A≻B∧B≻C⇒A≻C(传递性,证明见 [6])
因为 (7) 是在讨论向量范数,就考察当 A ≻ B ≻ 0 A\succ B \succ 0 A≻B≻0,对 ∀ x ≠ 0 \forall x \neq 0 ∀x=0, ∥ A x ∥ \|Ax\| ∥Ax∥ 与 ∥ B x ∥ \|Bx\| ∥Bx∥ 的大小关系。为方便,转成平方(假设是向量二范数):
- ∥ A x ∥ 2 = x T A T A x = x T A 2 x \|Ax\|^2 = x^TA^TAx = x^TA^2x ∥Ax∥2=xTATAx=xTA2x(A、B 都是对称阵)
- ∥ B x ∥ 2 = x T B 2 x \|Bx\|^2 = x^TB^2x ∥Bx∥2=xTB2x
那么: ∥ A x ∥ 2 − ∥ B x ∥ 2 = x T A 2 x − x T B 2 x = x T ( A 2 − B 2 ) x = x T ( A + B ) ( A − B ) x \begin{aligned} \|Ax\|^2 - \|Bx\|^2 &= x^TA^2x - x^TB^2x \\ &= x^T(A^2-B^2)x \\ &=x^T(A+B)(A-B)x \end{aligned} ∥Ax∥2−∥Bx∥2=xTA2x−xTB2x=xT(A2−B2)x=xT(A+B)(A−B)x 由前面正定阵性质:
- 因 A、B 都正定,所以 A + B 也正定;
- 条件已知 A - B 正定( A ≻ B A \succ B A≻B);
- 因 (A + B)(A - B) = (A - B)(A + B) = A 2 − B 2 A^2-B^2 A2−B2,所以 (A + B)(A - B) 也是正定。
所以 ∥ A x ∥ 2 − ∥ B x ∥ 2 = x T ( A + B ) ( A − B ) x > 0 \|Ax\|^2 - \|Bx\|^2 = x^T(A+B)(A-B)x > 0 ∥Ax∥2−∥Bx∥2=xT(A+B)(A−B)x>0。这说明 A ≻ B ≻ 0 A \succ B \succ 0 A≻B≻0 的直观意义是 A 对向量的拉伸效果比 B 好,拉伸同一个向量 x,A 拉完比 B 拉完的向量范数更大(模更大,向量更长)。
有这个直观解释后回看 (7) 式证明。对比前面
Δ
θ
−
j
\Delta\theta_{-j}
Δθ−j 和
h
j
(
⋅
)
h_j(\cdot)
hj(⋅) 的定义(前文 (a)、(b) 式)可知
h
j
(
⋅
)
h_j(\cdot)
hj(⋅) 是照着
Δ
θ
−
j
\Delta\theta_{-j}
Δθ−j 的形式构造的,
h
j
(
λ
)
h_j(\lambda)
hj(λ) 就相当于把
Δ
θ
−
j
\Delta\theta_{-j}
Δθ−j 中的各
Z
s
Z_s
Zs 换成相应的
(
1
−
η
s
λ
)
I
(1-\eta_s\lambda)I
(1−ηsλ)I 再取范数。
∵
∃
λ
,
Λ
>
0
,
∀
z
,
θ
,
λ
I
≺
∇
θ
2
ℓ
(
z
;
θ
)
≺
Λ
I
H
[
s
]
:
=
1
∣
S
s
∣
∑
i
∈
S
s
∇
θ
2
ℓ
(
z
i
;
θ
[
s
]
)
∴
λ
I
≺
H
[
s
]
≺
Λ
I
∴
(
1
−
η
s
Λ
)
I
≺
Z
s
=
I
−
η
s
H
[
s
]
≺
(
1
−
η
s
λ
)
I
(
c
)
\begin{aligned} \because\quad & \exist \lambda, \Lambda > 0, \forall z, \theta, \lambda I \prec \nabla_\theta^2 \ell(z ; \theta) \prec \Lambda I \\ & H^{[s]} := \frac{1}{\left|S_s\right|} \sum_{i \in S_s} \nabla_\theta^2 \ell\left(z_i ; \theta^{[s]}\right) \\ \therefore\quad & \lambda I \prec H^{[s]} \prec \Lambda I \\ \therefore\quad & (1-\eta_s\Lambda)I \prec Z_s = I - \eta_s H^{[s]} \prec(1-\eta_s\lambda)I & (c) \end{aligned}
∵∴∴∃λ,Λ>0,∀z,θ,λI≺∇θ2ℓ(z;θ)≺ΛIH[s]:=∣Ss∣1i∈Ss∑∇θ2ℓ(zi;θ[s])λI≺H[s]≺ΛI(1−ηsΛ)I≺Zs=I−ηsH[s]≺(1−ηsλ)I(c) 因为
∀
x
≠
0
,
x
T
I
x
=
x
T
x
>
0
\forall x \neq 0,x^TIx=x^Tx>0
∀x=0,xTIx=xTx>0,所以单位阵
I
I
I 正定;由前面第 3 条假设,
1
−
η
s
Λ
>
0
1 - \eta_s\Lambda > 0
1−ηsΛ>0,故
x
T
(
1
−
η
s
Λ
)
I
x
>
0
x^T(1-\eta_s\Lambda)Ix>0
xT(1−ηsΛ)Ix>0,所以
(
1
−
η
s
Λ
)
I
(1-\eta_s\Lambda)I
(1−ηsΛ)I 正定;再由 ©,
Z
s
Z_s
Zs、
(
1
−
η
s
λ
)
I
(1-\eta_s\lambda)I
(1−ηsλ)I 都正定(传递性),于是可以套上面的直观解释:对向量的拉伸能力
(
1
−
η
s
Λ
)
I
(1-\eta_s\Lambda)I
(1−ηsΛ)I 弱于
Z
s
Z_s
Zs 弱于
(
1
−
η
s
λ
)
I
(1-\eta_s\lambda)I
(1−ηsλ)I,所以同样是对
g
(
z
j
;
θ
[
s
]
)
g(z_j ; \theta^{[s]})
g(zj;θ[s]) 进行(一系列)拉伸,再取范数,再带上前面的正常系数
η
π
(
j
)
∣
S
s
∣
\frac{\eta_{\pi(j)}}{|S_s|}
∣Ss∣ηπ(j),可得 (7)。
[10] 讲的文章也有用到 Loewner 偏序,且跟 [1] 是相关的文章。
References
- (NIPS 2019) Data Cleansing for Models Trained with SGD - paper, code
- Majorization
- 矩阵论记号约定
- Loewner order
- 正定矩阵,正定矩阵
- 半正定矩陣的偏序關係
- Hermitian matrix
- 对称矩阵,对称矩阵
- Hessian matrix
- 《Understanding Black-box Predictions via Influence Functions》笔记