UNICORN论文阅读

这篇论文介绍了一种通用的视觉语言模型UNICORN,它整合了文本生成和bbox预测,实现了视觉 grounding、图像captioning等VL任务的SOTA性能,尤其受到Pix2seq模型启发。模型通过Transformer结构预测目标位置,并展示了在多个基准上的应用实例。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Crossing the Format Boundary of Text and Boxes: Towards Unified Vision-Language Modeling

本篇论文提出了一个通用的视觉语言模型(命名为UNICORN),该模型将文本生成和bbox预测统一在一个模型结构中。针对下述的4个任务,本模型在7个VL benchmarks上面都达到了和sota可比较的结果。
(1)visual grounding:给出一张图像和一个物体描述,生成该物体的bbox;
(2)grounded image captioning:对给定的图像自动生成一句话描述图像内容,同时预测出描述中名词对应的目标位置;
(3)visual question answering
(4)image captioning:图像描述生成

启发:

该模型主要受到了Pix2seq模型的启发。Pix2seq模型是一个简单而通用的目标检测框架,首先Pix2seq采用了一种离散化方案将目标的bbox位置转换成离散的token序列,然后采用了编码器-解码器的结构来预测该token序列,进而将预测结果在词汇表中寻找对照,转换成目标的检测框位置和类别。Pix2seq模型将目标检测转化为一个语言建模任务,能够很容易地将文本序列结合进去,因此本文作者受到启发,建立了UNICORN模型。

模型结构:
在这里插入图片描述

  1. 图像encoder:采用一个通用的卷积网络提取图像特征;
  2. 文本encoder:采用一个通用的文本encoder模型提取文本特征;
  3. 多模态encoder-decoder:将图像特征和文本特征结合起来作为输入,采用transformer encoder-decoder结构来预测目标序列;
  4. 目标序列:
    1. 如果是针对grounded image captioning任务,不仅需要生成图像描述,还需要预测出目标位置。目标位置的预测需要对gt进行box位置序列化:将box的xyxy位置,划分到200个bins内,完成序列化;如上图所示,一个box的位置坐标为[600.5,331.6,1227.7,721.2],通过序列化之后,将位置坐标映射为了[90,84,184,180]。作者在将目标位置和图像描述结合起来时,还采用两个特殊的token来标记目标名称,分别是<obj><\obj>。下面我展示了一个目标序列的实例:
      原始序列:A woman is manipulating 
      dishes in a dishwasher with a 
      man and another woman next to her .
      
      目标序列:<obj> A woman <35> <56> 
      <101> <199> <\obj> is manipulating
      <obj> dishes <79> <144> <99> <179> 
      <\obj> in <obj> a dishwasher <76>
      <178> <113> <199> <\obj> with 
      <obj> a man <91> <13> <181> <199> 
      <\obj> and <obj> another woman 
      <156> <37> <195> <199> <\obj> 
      next to her .
      

评价

该模型不需要针对不同的问题设计不同的head,采用一个统一的结构就能够在不同的vl任务上取得和sota可比较的效果,具有启发意义。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值