分享 | 引导语言图像预训练，实现统一的视觉语言理解和生成

最新推荐文章于 2023-09-23 15:44:23 发布

深兰深延AI

最新推荐文章于 2023-09-23 15:44:23 发布

阅读量2k

点赞数

分类专栏： CV 文章标签：计算机视觉人工智能深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/shenlanshenyanai/article/details/122867197

版权

本文介绍BLIP，一种新的视觉语言预训练框架，它在理解和生成任务上表现优异。通过多模态混合编码器-解码器（MED）和描述生成与过滤（CapFilt），BLIP在多个视觉语言任务上取得最佳结果，包括图像文本检索、图像描述生成和VQA，并在零样本学习中展现强大泛化能力。

摘要由CSDN通过智能技术生成

视觉语言预训练（VLP）已经提高了许多视觉语言任务的性能。然而，大多数现有的预训练模型只在基于理解的任务或基于生成的任务中表现出色。此外，性能的提高在很大程度上是通过扩大从网络上收集的有噪声的图像-文本对的数据集实现的，而这是一个次优的监督来源。

在本文中，我们提出了BLIP，一个新的VLP框架，它可以灵活地兼顾视觉-语言理解和生成任务。BLIP通过自助抽样法有效地利用了带噪声的网络数据，其中一个描述生成器生成了合成的图像描述，一个过滤器去除了带噪声的描述。我们在多个视觉语言任务上取得了最先进的结果，如图像文本检索（平均召回率+2.7%@1）、图像描述生成（CIDEr+2.8%）和VQA（VQA得分+1.6%）。BLIP在零样本学习中也表现出强大的泛化能力。

两个主要限制

模型角度：大多数方法要么采用一个基于编码器的模型或编码器-解码器模型。然而，基于编码器的模型不太容易直接转移到文本生成任务中，而编码器-解码器模型还没有被成功地用于图像-文本检索任务。

数据角度：大多数最先进的方法CLIP，ALBEF，SimVLM）使用从网络上收集的图像-文本对进行预训练。尽管通过扩大数据集获得了性能上的提高，我们的论文显示带噪音的网络文本对于视觉语言学习来说是次优的。

两个贡献

多模态混合编码器-解码器（MED）：一个新的的模型架构，用于有效的多任务预训练和灵活的迁移学习。MED可以作为一个单模态编码器，或一个基于图像的文本编码器，或

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。