简介
本文介绍了上海科技大学 YesAI Lab 在 NeurIPS 2024 发表的工作——《Federated Learning from Vision-Language Foundation Models: Theoretical Analysis and Method》。
该研究针对大型视觉-语言模型(如 CLIP)在联邦学习(FL)场景中的提示词微调,构建了理论分析框架。通过引入特征动力学理论,研究者设计了一个理论分析框架,并提出了 PromptFolio(提示词组合)机制,一个在联邦场景中平衡全局与个性化提示词的新方法。
PromptFolio 通过融合本地和全局提示词,既保留了任务相关特征又抑制了任务无关特征。通过严格的理论分析与实验验证,该研究展示了该方法在实际场景中的高效性。
该工作上海科技大学 2023 级博士生潘比康为第一作者,由石野教授和黄伟博士指导完成。
论文标题:
Federated Learning from Vision-Language Foundation Models: Theoretical Analysis and Method
论文地址:
https://arxiv.org/pdf/2409.19610
代码地址:
https://github.com/PanBikang/PromptFolio
研究背景
随着视觉-语言基石模型(VLMs)(如 CLIP)的发展,其在联邦学习中的应用变得日益重要。提示词微调因其通信开销小和计算资源需求低,在联邦学习中得到广泛关注。然而,