极小-极大双层多目标优化机器学习中的应用
研究动机
在安全关键型机器学习应用(如少样本人脸识别和跨人口统计的元学习)中,传统多任务优化方法(如平均损失最小化)存在严重局限性。这类方法容易忽视任务的“最坏情况”性能,导致模型在特定子群体或任务上表现脆弱。例如,元学习算法(如MAML)在任务分布偏移时泛化能力显著下降。现有双层优化框架(Bilevel Optimization, BO)多关注单目标场景,无法有效平衡多任务间的鲁棒性与泛化性。本文首次提出min-max双层多目标优化框架,旨在同时优化共享参数的鲁棒性和任务特定参数的适应性,为安全关键场景提供理论保障。
1. 问题模型与研究目标
问题模型:
- 双层多目标优化问题:
min x ∈ X max i ∈ [ n ] f i ( x , y i ⋆ ( x ) ) s.t. y i ⋆ ( x ) = arg min y i g i ( x , y i ) , ∀ i ∈ [ n ] \begin{array}{l} \min_{x\in\mathcal{X}} \max_{i\in[n]} f_i\left(x, y_i^{\star}(x)\right) \\ \text{s.t. } y_i^{\star}(x)=\arg\min_{y_i} g_i\left(x, y_i\right), \forall i\in[n] \end{array} minx∈Xmaxi∈[n]fi(x,yi⋆(x))s.t. yi⋆(x)=argminyigi(x,yi),∀i∈[n]
其中,外层目标 f i f_i fi 衡量任务 i i i 的损失(如测试集损失),内层目标 g i g_i gi 对应任务特定参数的训练损失。目标是通过优化共享参数 x x x,最小化所有任务的最坏情况损失。
研究目标:
- 设计高效的单循环算法以解决非凸-强凸双层优化问题。
- 保证算法收敛到一阶稳定点,理论分析收敛速度与泛化误差。
- 验证框架在元学习、表示学习等任务中的优越性。
2. 关键假设
-
外层函数性质:
- f i ( x , y ) f_i(x,y) fi(x,y) 关于 y y y 满足Lipschitz连续性与光滑性;
- ℓ i ( x ) = f i ( x , y i ⋆ ( x ) ) \ell_i(x)=f_i(x,y_i^\star(x)) ℓi(x)=fi(x,yi⋆(x)) 为 μ ℓ \mu_\ell μℓ-弱凸函数( μ ℓ < 0 \mu_\ell < 0 μℓ<0)。
-
内层函数性质:
- g i ( x , y ) g_i(x,y) gi(x,y) 关于 y y y 为 μ g \mu_g μg-强凸且二阶光滑;
- 内层解 y i ⋆ ( x ) y_i^\star(x) yi⋆(x) 关于 x x x 满足Lipschitz连续性。
-
随机梯度估计:
- 内层梯度估计 h g k , i h_g^{k,i} hgk,i 无偏且方差有界;
- 外层梯度估计 h x k h_x^k hxk 含可控偏差项 B k B_k Bk( ∥ B k ∥ ≤ b k \|B_k\| \leq b_k ∥Bk∥≤bk)。
3. 算法设计(MORBiT)
核心思想:单循环、双时间尺度梯度下降-上升(GDA)框架,同步更新共享参数 x x x、任务参数 y i y_i yi 与权重 λ \lambda λ。
步骤:
- 内层更新:对每个任务
i
i
i,沿
h
g
k
,
i
h_g^{k,i}
hgk,i(
g
i
g_i
gi 的随机梯度)更新
y
i
y_i
yi:
y k + 1 i = y k i − β h g k , i y_{k+1}^i = y_k^i - \beta h_g^{k,i} yk+1i=yki−βhgk,i - 外层更新:
- 沿加权梯度
h
x
k
h_x^k
hxk(近似
∇
x
F
(
x
,
y
,
λ
k
)
\nabla_x F(x,y,\lambda_k)
∇xF(x,y,λk))更新
x
x
x:
x k + 1 = proj X ( x k − α h x k ) x_{k+1} = \text{proj}_\mathcal{X}\left(x_k - \alpha h_x^k\right) xk+1=projX(xk−αhxk) - 沿
h
λ
k
h_\lambda^k
hλk(外层损失向量)更新权重
λ
\lambda
λ:
λ k + 1 = proj Δ n ( λ k + γ h λ k ) \lambda_{k+1} = \text{proj}_{\Delta_n}\left(\lambda_k + \gamma h_\lambda^k\right) λk+1=projΔn(λk+γhλk)
- 沿加权梯度
h
x
k
h_x^k
hxk(近似
∇
x
F
(
x
,
y
,
λ
k
)
\nabla_x F(x,y,\lambda_k)
∇xF(x,y,λk))更新
x
x
x:
时间尺度选择:
- 步长 α = O ( K − 3 / 5 ) \alpha = \mathcal{O}(K^{-3/5}) α=O(K−3/5), β = O ( K − 2 / 5 ) \beta = \mathcal{O}(K^{-2/5}) β=O(K−2/5), γ = O ( K − 3 / 5 n − 1 / 2 ) \gamma = \mathcal{O}(K^{-3/5}n^{-1/2}) γ=O(K−3/5n−1/2),确保 y i y_i yi 更新快于 x x x 和 λ \lambda λ。
4. 定理描述
定理1(收敛性):
在关键假设下,MORBiT算法生成的解
(
x
ˉ
,
y
ˉ
i
,
λ
ˉ
)
(\bar{x}, \bar{y}_i, \bar{\lambda})
(xˉ,yˉi,λˉ) 满足:
- 内层收敛:
E [ max i ∥ y ˉ i − y i ⋆ ( x ˉ ) ∥ 2 ] ≤ O ( n K − 2 / 5 ) \mathbb{E}\left[\max_i \|\bar{y}_i - y_i^\star(\bar{x})\|^2\right] \leq \mathcal{O}\left(\sqrt{n} K^{-2/5}\right) E[imax∥yˉi−yi⋆(xˉ)∥2]≤O(nK−2/5) - 外层最优性间隙:
max λ E [ F ( x ˉ , λ ) ] − E [ F ( x ˉ , λ ˉ ) ] ≤ O ( n K − 2 / 5 ) \max_\lambda \mathbb{E}[F(\bar{x},\lambda)] - \mathbb{E}[F(\bar{x},\bar{\lambda})] \leq \mathcal{O}\left(\sqrt{n} K^{-2/5}\right) λmaxE[F(xˉ,λ)]−E[F(xˉ,λˉ)]≤O(nK−2/5) - 稳定性条件:
E [ ∥ x ^ ( x ˉ ) − x ˉ ∥ 2 ] ≤ O ( n K − 2 / 5 ) \mathbb{E}\left[\|\hat{x}(\bar{x}) - \bar{x}\|^2\right] \leq \mathcal{O}\left(\sqrt{n} K^{-2/5}\right) E[∥x^(xˉ)−xˉ∥2]≤O(nK−2/5)
解释与Remark:
- 收敛速率由任务数 n n n 和迭代次数 K K K 共同主导,适用于高维多任务场景。
- 当 n = 1 n=1 n=1 时,退化为经典双层优化算法TTSA的收敛速率 O ( K − 2 / 5 ) \mathcal{O}(K^{-2/5}) O(K−2/5)。
- 通过加权投影保证 λ \lambda λ 的收敛,避免任务权重发散导致的次优解。
5. 贡献与创新
- 理论框架创新:
- 首次提出min-max双层多目标优化形式化模型,统一元学习、表示学习等任务中的鲁棒性需求。
- 算法设计:
- 提出单循环双时间尺度算法MORBiT,支持异构任务参数维度,优于传统双循环方法。
- 理论分析突破:
- 在非凸-强凸假设下,证明收敛速率 O ( n K − 2 / 5 ) \mathcal{O}(\sqrt{n}K^{-2/5}) O(nK−2/5),扩展了TTSA和TR-MAML的结论;
- 给出基于Rademacher复杂度的泛化误差界,证明任务凸组合下的泛化能力。
6. 总结与未来研究方向
总结:
本文通过min-max双层优化框架,解决了多任务学习中鲁棒性与泛化的平衡问题。MORBiT算法在理论和实验上均优于现有方法,为安全关键型应用提供了新思路。
未来方向:
- 扩展理论:研究非强凸内层问题(如超参数优化中的非凸性)的收敛性。
- 大规模任务:设计分布式算法以降低 n \sqrt{n} n 对收敛速率的负面影响。
- 应用拓展:将框架应用于对抗鲁棒性、联邦学习中的异构设备优化等场景。
- 自适应步长:结合自适应学习率策略(如Adam)提升实际收敛速度。