极小-极大双层多目标优化机器学习中的应用-CSDN博客

本文链接：https://blog.csdn.net/qq_45975161/article/details/147933720

极小-极大双层多目标优化机器学习中的应用

研究动机

在安全关键型机器学习应用（如少样本人脸识别和跨人口统计的元学习）中，传统多任务优化方法（如平均损失最小化）存在严重局限性。这类方法容易忽视任务的“最坏情况”性能，导致模型在特定子群体或任务上表现脆弱。例如，元学习算法（如MAML）在任务分布偏移时泛化能力显著下降。现有双层优化框架（Bilevel Optimization, BO）多关注单目标场景，无法有效平衡多任务间的鲁棒性与泛化性。本文首次提出min-max双层多目标优化框架，旨在同时优化共享参数的鲁棒性和任务特定参数的适应性，为安全关键场景提供理论保障。

1. 问题模型与研究目标

问题模型：

双层多目标优化问题：
$\begin{array}{l} \min_{x\in\mathcal{X}} \max_{i\in[n]} f_i\left(x, y_i^{\star}(x)\right) \\ \text{s.t. } y_i^{\star}(x)=\arg\min_{y_i} g_i\left(x, y_i\right), \forall i\in[n] \end{array}$
其中，外层目标 $f_i$ 衡量任务 $i$ 的损失（如测试集损失），内层目标 $g_i$ 对应任务特定参数的训练损失。目标是通过优化共享参数 $x$ ，最小化所有任务的最坏情况损失。

研究目标：

设计高效的单循环算法以解决非凸-强凸双层优化问题。
保证算法收敛到一阶稳定点，理论分析收敛速度与泛化误差。
验证框架在元学习、表示学习等任务中的优越性。

2. 关键假设

外层函数性质：
- $f_i(x,y)$ 关于 $y$ 满足Lipschitz连续性与光滑性；
- $\ell_i(x)=f_i(x,y_i^\star(x))$ 为 $\mu_\ell$ -弱凸函数（ $\mu_\ell < 0$ ）。
内层函数性质：
- $g_i(x,y)$ 关于 $y$ 为 $\mu_g$ -强凸且二阶光滑；
- 内层解 $y_i^\star(x)$ 关于 $x$ 满足Lipschitz连续性。
随机梯度估计：
- 内层梯度估计 $h_g^{k,i}$ 无偏且方差有界；
- 外层梯度估计 $h_x^k$ 含可控偏差项 $B_k$ （ $\|B_k\| \leq b_k$ ）。

3. 算法设计（MORBiT）

核心思想：单循环、双时间尺度梯度下降-上升（GDA）框架，同步更新共享参数 $x$ 、任务参数 $y_i$ 与权重 $\lambda$ 。

步骤：

内层更新：对每个任务 $i$ ，沿 $h_g^{k,i}$ （ $g_i$ 的随机梯度）更新 $y_i$ ：
$y_{k+1}^i = y_k^i - \beta h_g^{k,i}$
外层更新：
- 沿加权梯度 $h_x^k$ （近似 $\nabla_x F(x,y,\lambda_k)$ ）更新 $x$ ：
  $x_{k+1} = \text{proj}_\mathcal{X}\left(x_k - \alpha h_x^k\right)$
- 沿 $h_\lambda^k$ （外层损失向量）更新权重 $\lambda$ ：
  $\lambda_{k+1} = \text{proj}_{\Delta_n}\left(\lambda_k + \gamma h_\lambda^k\right)$

时间尺度选择：

步长 $\alpha = \mathcal{O}(K^{-3/5})$ , $\beta = \mathcal{O}(K^{-2/5})$ , $\gamma = \mathcal{O}(K^{-3/5}n^{-1/2})$ ，确保 $y_i$ 更新快于 $x$ 和 $\lambda$ 。

4. 定理描述

定理1（收敛性）：
在关键假设下，MORBiT算法生成的解 $(\bar{x}, \bar{y}_i, \bar{\lambda})$ 满足：

内层收敛：
$\mathbb{E}\left[\max_i \|\bar{y}_i - y_i^\star(\bar{x})\|^2\right] \leq \mathcal{O}\left(\sqrt{n} K^{-2/5}\right)$
外层最优性间隙：
$\max_\lambda \mathbb{E}[F(\bar{x},\lambda)] - \mathbb{E}[F(\bar{x},\bar{\lambda})] \leq \mathcal{O}\left(\sqrt{n} K^{-2/5}\right)$
稳定性条件：
$\mathbb{E}\left[\|\hat{x}(\bar{x}) - \bar{x}\|^2\right] \leq \mathcal{O}\left(\sqrt{n} K^{-2/5}\right)$

解释与Remark：

收敛速率由任务数 $n$ 和迭代次数 $K$ 共同主导，适用于高维多任务场景。
当 $n = 1$ 时，退化为经典双层优化算法TTSA的收敛速率 $\mathcal{O}(K^{-2/5})$ 。
通过加权投影保证 $\lambda$ 的收敛，避免任务权重发散导致的次优解。

5. 贡献与创新

理论框架创新：
- 首次提出min-max双层多目标优化形式化模型，统一元学习、表示学习等任务中的鲁棒性需求。
算法设计：
- 提出单循环双时间尺度算法MORBiT，支持异构任务参数维度，优于传统双循环方法。
理论分析突破：
- 在非凸-强凸假设下，证明收敛速率 $\mathcal{O}(\sqrt{n}K^{-2/5})$ ，扩展了TTSA和TR-MAML的结论；
- 给出基于Rademacher复杂度的泛化误差界，证明任务凸组合下的泛化能力。