BLIP：用更干净更多样的数据进行多模态预训练，性能超越CLIP！代码已开源！...

最新推荐文章于 2024-06-11 10:46:29 发布

我爱计算机视觉

最新推荐文章于 2024-06-11 10:46:29 发布

阅读量2.4k

点赞数 3

文章标签：计算机视觉机器学习人工智能深度学习 java

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/moxibingdao/article/details/122955160

版权

关注公众号，发现CV技术之美

▊ 写在前面

视觉语言预训练 (VLP) 提高了许多视觉语言任务的性能。但是，大多数现有的预训练模型仅在基于理解的任务或基于生成的任务中表现出色。此外，通过使用从web收集的嘈杂的图像-文本对来扩展数据集，在很大程度上实现了性能改进，但这是监督的次优来源。

在本文中，作者提出了BLIP，这是一个新的VLP框架，可以灵活地转换到视觉语言理解和生成任务。BLIP通过引导字幕有效地利用了嘈杂的web数据，其中字幕器（captioner）生成合成字幕，而过滤器（ﬁlter）则删除了嘈杂的字幕。

作者在广泛的视觉语言任务上获得了最先进的结果，例如图像文本检索，图像字幕和VQA。当以zero-shot方式直接转移到视频语言任务时，BLIP还表现出很强的泛化能力。

▊ 1. 论文和代码地址

BLIP: Bootstrapping Language-Image Pre-training for Uniﬁed Vision-Language Understanding and Generation

论文：https://arxiv.org/abs/2201.12086

代码：https://github.com/salesforce/BLIP

▊ 2. Motivation

视觉语言预训练最近在各种多模态下游任务上获得了巨大的成功。然而，现有的方法有两个主要的局限性:

1) 模型角度: 大多数方法要么采用基于编码器的模型，要么采用编码器-解码器模型。然而，基于编码器的模型不太容易直接转换到文本生成任务（例如图像字幕），而编码器-解码器模型尚未成功用于图像文本检索任务。

2) 数据角度: SOTA的方法（如CLIP、ALBEF等）都在从web上收集到的图文对上进行预训练。尽管通过扩展数据集获得了性能提升，但本文的研究表明，对于视觉语言学习来说，有噪声的网络文本是次优的。

为此，作者提出了BLIP: 引导语言图像预训

最低0.47元/天解锁文章

我爱计算机视觉

关注

3
点赞
踩
15

收藏

觉得还不错? 一键收藏
0
评论
BLIP：用更干净更多样的数据进行多模态预训练，性能超越CLIP！代码已开源！...

关注公众号，发现CV技术之美▊写在前面视觉语言预训练 (VLP) 提高了许多视觉语言任务的性能。但是，大多数现有的预训练模型仅在基于理解的任务或基于生成的任务中表现出色。此外，通过使用从...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。