AMiner论文推荐

论文名称:Pix2seq: A Language Modeling Framework for Object Detection
论文地址:
https://www.aminer.cn/pub/614bf07f5244ab9dcbc5d6f4?f=cs
视觉目标检测系统的目标是识别和定位图像中所有预定义类别的目标。检测到的对象通常由一组包围框和相关的类标签描述。考虑到任务的难度,大多数现有的方法,如(Girshick, 2015; Ren et al., 2015; He et al., 2017; Lin et al., 2017b; Carion et al., 2020),经过精心设计和高度定制,在结构和损失功能的选择方面具有大量的先验知识。例如,许多架构都使用了边界框(例如,区域方案(Girshick, 2015;Ren et al., 2015)和RoI池化(Girshick et al., 2014; He et al., 2017))。损失函数也经常被裁剪为使用边界盒,如盒回归(Szegedy et al., 2013;Lin et al., 2017b),集匹配(Erhan et al., 2014;Carion et al., 2020),或合并特定的性能指标,如边界框上的交叉-联合(Rezatofighi et al., 2019)。尽管现有系统在无数领域都有应用,从自动驾驶汽车(Sun et al., 2020),到医学图像分析(Jaeger et al., 2020),再到农业(Sa et al., 2016),但其专业化和复杂性使其难以整合到一个更大的系统中。或者泛化到与通用智能相关的更广泛的任务。
本文提出一种新的方法,如果神经网络知道目标在哪里和什么,我们只需要教它把它们读出来。通过学习“描述”对象目标,模型可以学习以像素观察为基础的“语言”,从而得到有用的目标表示。这是通过我们的Pix2Seq框架实现的。给定一个图像,我们的模型产生一个离散的标记序列,对应于目标描述,让人想起图像字幕系统(Vinyals et al., 2015b; Karpathy & Fei-Fei, 2015; Xu et al., 2015)。本质上,我们将目标检测视为一个以像素输入为条件的语言建模任务,其模型结构和损失函数是通用的、相对简单的,没有针对检测任务进行专门设计。因此,可以很容易地将框架扩展到不同的领域或应用,或将其合并到支持一般智能的感知系统中,为广泛的视觉任务提供语言接口。
为了处理Pix2Seq的检测任务,我们首先提出了一个量化和序列化方案,将包围盒和类标签转换成一个离散令牌序列。然后我们利用编码器-解码器体系结构来感知像素输入并生成目标序列。目标函数是基于像素输入和之前的标记的最大可能性。虽然体系结构和损失函数都是任务无关的(无需假设关于目标检测的先验知识,例如包围框),但我们仍然可以将特定于任务的先验知识与序列增强技术结合起来,该技术在训练过程中改变输入和目标序列,如下所示。通过广泛的实验,与高度定制的、建立良好的方法相比,包括Faster R-CNN (Ren et al., 2015)和DETR (Carion et al., 2020)。,我们证明了这个简单的Pix2Seq框架可以在COCO数据集上取得有竞争力的结果。
AMiner,让AI帮你理解科学!https://www.aminer.cn
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值