AMiner论文推荐

AMiner学术搜索和科技情报挖掘

于 2021-09-26 17:12:44 发布

阅读量187

点赞数

分类专栏： AMiner AMiner论文推荐文章标签： cnn 自动驾驶人工智能

本文链接：https://blog.csdn.net/AI_Conf/article/details/120492952

版权

AMiner 同时被 2 个专栏收录

729 篇文章 44 订阅

订阅专栏

AMiner论文推荐

515 篇文章 52 订阅

订阅专栏

论文名称：Pix2seq: A Language Modeling Framework for Object Detection
论文地址:
https://www.aminer.cn/pub/614bf07f5244ab9dcbc5d6f4?f=cs
视觉目标检测系统的目标是识别和定位图像中所有预定义类别的目标。检测到的对象通常由一组包围框和相关的类标签描述。考虑到任务的难度，大多数现有的方法，如(Girshick, 2015; Ren et al., 2015; He et al., 2017; Lin et al., 2017b; Carion et al., 2020)，经过精心设计和高度定制，在结构和损失功能的选择方面具有大量的先验知识。例如，许多架构都使用了边界框(例如，区域方案(Girshick, 2015;Ren et al.， 2015)和RoI池化(Girshick et al., 2014; He et al., 2017))。损失函数也经常被裁剪为使用边界盒，如盒回归(Szegedy et al.， 2013;Lin et al.， 2017b)，集匹配(Erhan et al.， 2014;Carion et al.， 2020)，或合并特定的性能指标，如边界框上的交叉-联合(Rezatofighi et al.， 2019)。尽管现有系统在无数领域都有应用，从自动驾驶汽车(Sun et al.， 2020)，到医学图像分析(Jaeger et al.， 2020)，再到农业(Sa et al.， 2016)，但其专业化和复杂性使其难以整合到一个更大的系统中。或者泛化到与通用智能相关的更广泛的任务。
本文提出一种新的方法，如果神经网络知道目标在哪里和什么，我们只需要教它把它们读出来。通过学习“描述”对象目标，模型可以学习以像素观察为基础的“语言”，从而得到有用的目标表示。这是通过我们的Pix2Seq框架实现的。给定一个图像，我们的模型产生一个离散的标记序列，对应于目标描述，让人想起图像字幕系统(Vinyals et al., 2015b; Karpathy & Fei-Fei, 2015; Xu et al., 2015)。本质上，我们将目标检测视为一个以像素输入为条件的语言建模任务，其模型结构和损失函数是通用的、相对简单的，没有针对检测任务进行专门设计。因此，可以很容易地将框架扩展到不同的领域或应用，或将其合并到支持一般智能的感知系统中，为广泛的视觉任务提供语言接口。
为了处理Pix2Seq的检测任务，我们首先提出了一个量化和序列化方案，将包围盒和类标签转换成一个离散令牌序列。然后我们利用编码器-解码器体系结构来感知像素输入并生成目标序列。目标函数是基于像素输入和之前的标记的最大可能性。虽然体系结构和损失函数都是任务无关的(无需假设关于目标检测的先验知识，例如包围框)，但我们仍然可以将特定于任务的先验知识与序列增强技术结合起来，该技术在训练过程中改变输入和目标序列，如下所示。通过广泛的实验，与高度定制的、建立良好的方法相比，包括Faster R-CNN (Ren et al.， 2015)和DETR (Carion et al.， 2020)。，我们证明了这个简单的Pix2Seq框架可以在COCO数据集上取得有竞争力的结果。
AMiner,让AI帮你理解科学！https://www.aminer.cn
在这里插入图片描述

AMiner学术搜索和科技情报挖掘

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
AMiner论文推荐

论文名称：Pix2seq: A Language Modeling Framework for Object Detection论文地址:https://www.aminer.cn/pub/614bf07f5244ab9dcbc5d6f4?f=cs视觉目标检测系统的目标是识别和定位图像中所有预定义类别的目标。检测到的对象通常由一组包围框和相关的类标签描述。考虑到任务的难度，大多数现有的方法，如(Girshick, 2015; Ren et al., 2015; He et al., 2017; Lin
复制链接

扫一扫

专栏目录