自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(2)
  • 收藏
  • 关注

原创 Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation

视觉-语言预训练(VLP)提高了许多视觉语言任务的性能。然而,大多数现有的预训练模型仅仅擅长基于理解的任务或者基于生成的任务。此外,性能的提高在很大程度上是通过扩大从网络上收集的带有噪声的图像-文本对数据集实现的,而这是一只次优的监督来源。在本文中,我们提出了一个新的VLP框架BLIP,它可以灵活运用与视觉-语言理解和生成任务。BLIP通过引导生成描述的方法,有效地利用了有噪声的网络数据,其中一个captioner生成合成描述,而一个filter去除有噪声的描述。

2023-11-15 00:07:49 266 2

原创 BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Mode

由于大规模模型端到端训练,视觉-语言预训练的成本变得越来越高。于是这篇论文提出了BLIP-2,一种通用且高效的预训练策略,特点是利用市面上现成的冻结预训练图像编码器和大语言模型进行引导视觉语言预训练。BLIP-2依赖于一种轻量级Querying Transformer,有效的弥补了模态差距。Querying Transformer的训练分为两个阶段。第一阶段通过冻结的图像编码器实现视觉到语言表征学习的引导,第二阶段通过冻结的大语言模型驱动视觉到语言生成学习的引导。

2023-11-02 08:48:26 118

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除