多模态
文章平均质量分 96
车车绷不住啦
普普通通的se研0萌新一枚
展开
-
Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation
视觉-语言预训练(VLP)提高了许多视觉语言任务的性能。然而,大多数现有的预训练模型仅仅擅长基于理解的任务或者基于生成的任务。此外,性能的提高在很大程度上是通过扩大从网络上收集的带有噪声的图像-文本对数据集实现的,而这是一只次优的监督来源。在本文中,我们提出了一个新的VLP框架BLIP,它可以灵活运用与视觉-语言理解和生成任务。BLIP通过引导生成描述的方法,有效地利用了有噪声的网络数据,其中一个captioner生成合成描述,而一个filter去除有噪声的描述。原创 2023-11-15 00:07:49 · 306 阅读 · 2 评论 -
BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Mode
由于大规模模型端到端训练,视觉-语言预训练的成本变得越来越高。于是这篇论文提出了BLIP-2,一种通用且高效的预训练策略,特点是利用市面上现成的冻结预训练图像编码器和大语言模型进行引导视觉语言预训练。BLIP-2依赖于一种轻量级Querying Transformer,有效的弥补了模态差距。Querying Transformer的训练分为两个阶段。第一阶段通过冻结的图像编码器实现视觉到语言表征学习的引导,第二阶段通过冻结的大语言模型驱动视觉到语言生成学习的引导。原创 2023-11-02 08:48:26 · 153 阅读 · 0 评论