车车绷不住啦-CSDN博客

原创 Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation

视觉-语言预训练(VLP)提高了许多视觉语言任务的性能。然而，大多数现有的预训练模型仅仅擅长基于理解的任务或者基于生成的任务。此外，性能的提高在很大程度上是通过扩大从网络上收集的带有噪声的图像-文本对数据集实现的，而这是一只次优的监督来源。在本文中，我们提出了一个新的VLP框架BLIP，它可以灵活运用与视觉-语言理解和生成任务。BLIP通过引导生成描述的方法，有效地利用了有噪声的网络数据，其中一个captioner生成合成描述，而一个filter去除有噪声的描述。

2023-11-15 00:07:49 272 2

原创 BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Mode

由于大规模模型端到端训练，视觉-语言预训练的成本变得越来越高。于是这篇论文提出了BLIP-2，一种通用且高效的预训练策略，特点是利用市面上现成的冻结预训练图像编码器和大语言模型进行引导视觉语言预训练。BLIP-2依赖于一种轻量级Querying Transformer，有效的弥补了模态差距。Querying Transformer的训练分为两个阶段。第一阶段通过冻结的图像编码器实现视觉到语言表征学习的引导，第二阶段通过冻结的大语言模型驱动视觉到语言生成学习的引导。

2023-11-02 08:48:26 124

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人