ECCV2022 Oral | 微软提出UniTAB用Seq2Seq模式统一多模态任务!

【写在前面】

作者提出了统一文本和框输出的 UniTAB,用于基础视觉语言 (VL) 建模。ground的 VL 任务(例如grounded captioning)需要模型生成文本描述并将预测的单词与对象区域对齐。为此,模型必须同时生成所需的文本和框输出,同时指示单词和框之间的对齐方式。与使用多个单独模块用于不同输出的现有解决方案相比,UniTAB 使用共享token序列表示文本和框输出,并引入特殊的 <obj>  token以自然地指示序列中的单词框对齐。UniTAB 因此可以通过将生成的单词自由地定位到对象区域来提供更全面和可解释的图像描述。在grounded captioning方面,UniTAB 提供了一种具有单个输出头的更简单的解决方案,并且在grounding和captioning评估方面明显优于现有技术。在具有不同所需输出格式(即文本、框或它们的组合)的一般 VL 任务上,具有单个网络的 UniTAB 比特定任务的现有技术实现了更好或相当的性能。实验涵盖 7 个 VL 基准。此外,UniTAB 的统一多任务网络和与任务无关的输出序列设计使模型参数高效且可推广到新任务。

1. 论文和代码地址

UniTAB: Unifying Text and Box Outputs for Grounded Vision-Language Modeling

论文地址:https://arxiv.org/abs/2111.12085[1]

代码地址:https://github.com/microsoft/UniTAB[2]

2. Motivation

文本序列和边界框是图像理解任务的两种代表性输出格式。文本非常适合生成图像级预测,例如用句子描述图像或使用关键字标记图像,但无法引用密集图像区域。另一方面,box 可以指向任何图像区域,但它提供语义丰富的描述的能力有限。一个自然的问题是,能否有一个统一文本和框输出的模型,即在将预测词与框对齐的同时生成文本和框输出。统一这两种输出格式可以让模型更好地表达图片。以字幕为例,这样一个统一的模型可以将字幕中的所有名词实体返回到对齐的图像区域,从而提供更全面和可解释的图像描述。这个问题被称为grounded captioning。此外,统一输出格式是朝着构建与任务无关的通用视觉系统的宏伟愿景迈出的重要一步,该系统具有参数效率和良好的泛化性。

最近的工作开发了可以生成文本和框输出的模型。具体来说,该系统将预测框的在线或离线对象检测模块与生成文本的视觉语言模型相结合。然后分别生成单词和框对齐作为附加预测,例如相关性分数。分别预测文本、框和它们的对齐方式会削弱统一系统的好处。单独的模块阻止了框架的简单和参数效率。此外,显式目标检测组件增加了模型运行时间,并可能限制其在给定预设检测器词汇的情况下的泛化能力,如之前的 VL 研究中所讨论的。除了这些成功的初步探索之外,作者还提出了一个更大胆的问题:能否在没有单独模块的情况下统一输出格式?具体来说,作者探讨 1)如何在没有显式检测器联合生成文本和框的情况下拥有单一架构,以及 2)如何在输出中自然地表示词框对齐以

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值