学习视觉和语言的多粒度对齐？字节提出新多模态预训练方法 X-VLM：代码已开源！...

最新推荐文章于 2024-06-11 14:52:11 发布

PaperWeekly

最新推荐文章于 2024-06-11 14:52:11 发布

阅读量1.8k

点赞数

文章标签： python 计算机视觉机器学习人工智能深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/c9Yv2cf9I06K2A9E/article/details/123173226

版权

写在前面

视觉语言预训练提高了许多视觉语言任务的性能。但是，现有的多数预训练方法依赖目标检测器（object detectors）提取基于物体的视觉特征，以此学习细粒度的视觉和语言对齐，例如物体（object）级别。然而，这种方法存在识别视觉概念有限、图像编码上下文信息丢失和计算效率低下的问题。

在本文中，字节跳动人工智能实验室提出了 X-VLM，以统一的方法学习多粒度的视觉和语言对齐，不依赖目标检测方法且不局限于学习图片级别或物体级别的对齐。该方法在广泛的视觉语言任务上获得了最先进的结果，例如：图像文本检索（image-text retrieval）、视觉问答（VQA）、视觉推理（NLVR）、视觉定位（visual grounding）、图片描述生成（image captioning）。

论文标题：

Multi-Grained Vision Language Pre-Training: Aligning Texts with Visual Concepts

论文链接：

https://arxiv.org/abs/2111.08276

代码链接：

https://github.com/zengyan-97/X-VLM

研究背景

▲ 图1：现有两类的方法（a, b）和X-VLM（c）

现有的多模态预训练模型大致分为两类：1）依赖目标检测器提取基于物体的视觉特征，以此学习细粒度的视觉和语言对齐，如图 1 中

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
学习视觉和语言的多粒度对齐？字节提出新多模态预训练方法 X-VLM：代码已开源！...

写在前面视觉语言预训练提高了许多视觉语言任务的性能。但是，现有的多数预训练方法依赖目标检测器（object detectors）提取基于物体的视觉特征，以此学习细粒度的视觉和语言对齐，例...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。