论文作者:Yating Liu,Zimo Liu,Xiangyuan Lan,Wenming Yang,Yaowei Li,Qingmin Liao
作者单位:Shenzhen International Graduate School, Tsinghua University;Pengcheng Laboratory;Peking University;Pazhou Laboratory (Huangpu),
论文链接:http://arxiv.org/abs/2503.04144v1
内容简介:
1)方向:基于文本的人物检索(TPR)
2)应用:基于文本的人物检索(TPR)
3)背景:尽管基于视觉-语言预训练的CLIP模型在人物领域的应用引起了广泛关注,但在微调过程中仍然存在一些挑战:(i)以往在TPR任务中进行全模型微调计算开销大,且容易导致过拟合;(ii)现有的参数高效迁移学习(PETL)方法缺乏细粒度特征提取。
4)方法:为了解决上述问题,本文提出了域感知适配器混合模型(DM-Adapter),将专家混合模型(MOE)与PETL结合,增强了细粒度特征表示,同时保持了高效性。具体而言,稀疏适配器混合模型(Sparse Mixture-of-Adapters)并行设计在视觉和语言分支的MLP层中,不同的专家分别专注于人物知识的不同方面,能够更细致地处理特征。为了促进路由器有效利用领域信息并缓解路由不平衡,进一步开发了域感知路由器,通过构建新的门控函数并注入可学习的域感知提示来实现。
5)结果:广泛的实验结果表明,DM-Adapter在性能上超过了以往的方法,并在多个指标上取得了最先进的成果,显著提高了基于文本的人物检索效果。