已读论文创新点合集_240917

醒了就刷牙

已于 2024-09-20 21:49:17 修改

阅读量610

点赞数 22

分类专栏：论文文章标签：人工智能深度学习

于 2024-09-17 12:10:32 首次发布

本文链接：https://blog.csdn.net/buyaotutou/article/details/142313244

版权

论文专栏收录该内容

48 篇文章 0 订阅

订阅专栏

系列文章目录

文章目录

系列文章目录
一、《LAMM: Label Alignment for Multi-Modal Prompt Learning》
二、《MaPLe: Multi-modal Prompt Learning》
三、《Learning to Prompt for Vision-Language Models》CoOp
四、《MobileCLIP: Fast Image-Text Models through Multi-Modal Reinforced Training》

一、《LAMM: Label Alignment for Multi-Modal Prompt Learning》

第一、本文提出了一种标记对齐技术LAMM，它通过梯度优化来自动搜索最优嵌入。据论文作者所知，可训练类别标记的概念是在预训练的VL模型中首次提出的。
第二、为了避免整个提示模板的语义特征偏离太远，作者在训练阶段引入了层次丢失。层次损失便于在参数、特征和logit空间之间对齐类别表示。通过这些操作，CLIP模型的泛化能力在LAMM中得以保留，使得LAMM在下游任务中更好地区分不同的类别，同时保留了原始类别描述的语义。
第三、假定LAMM仅微调下游数据集中的标签嵌入，则它不会遇到在连续学习期间传统方法中通常遇到的灾难性遗忘问题。

二、《MaPLe: Multi-modal Prompt Learning》

（1）我们建议在CLIP中采用多模态快速学习，以使其视觉语言表征更好地保持一致。据我们所知，这是第一个用于微调CLIP的多模态提示方法.
（2）为了将在文本和图像编码器中学习到的提示联系起来，我们提出了一个耦合函数，以明确地将视觉提示条件化到它们的语言对应物上。它是两种模式之间的桥梁，允许梯度的相互传播，以促进协同作用。
（3）我们的多模态提示是在视觉和语言分支的多个Transformer模块中学习的，以逐步学习两种模态的协同行为。这种深度提示策略允许独立地对上下文关系建模，从而提供更大的灵活性来对齐视觉-语言表示。

三、《Learning to Prompt for Vision-Language Models》CoOp

（1）我们提出了一项关于在下游应用中调整最近提出的视觉语言模型的及时研究，并确定了与部署效率相关的一个关键问题，即，提示工程。
（2）为了实现针对预训练的视觉语言模型的提示工程的自动化，我们提出了一种基于连续提示学习的简单方法，并提供了两种可以处理不同识别任务的实现。
（3）我们首次证明了所提出的基于即时学习的方法在大型视觉语言模型的下游迁移学习性能和域转移下的鲁棒性方面优于手工制作的提示和线性探测模型。
（4）我们在github上开放了我们的项目的源代码。

四、《MobileCLIP: Fast Image-Text Models through Multi-Modal Reinforced Training》

（1）我们设计了一个新的移动友好型CLIP模型系列，MobileCLIP。MobileCLIP的变体在图像和文本编码器中使用具有结构重新参数化的混合CNNtransformer架构，以减少大小和延迟。
（2）我们引入了多模态强化训练，这是一种新的训练策略，它结合了来自预训练图像字幕模型和强大CLIP模型集合的知识转移，以提高学习效率。
（3）我们介绍了我们的增强数据集的两个变体：DataCompDR-12 M和DataCompDR-1B。使用DataCompDR，我们展示了与DataComp相比10倍至1000倍的学习效率。
（4）MobileCLIP系列在零触发任务上获得了最先进的延迟精度折衷，包括标记新的最佳ViT-B/16 CLIP模型。