Pix2Seq:一个简单而通用的目标检测新框架, 其将目标检测转换为语言建模任务,大大简化了pipeline,性能可比肩Faster R-CNN和DETR!还可扩展到其他任务。
注1:有点像去年看到DETR的感觉,都是没有对标sota,而是跟milestone比较。所以这一两年都要把CV看成NLP来搞么,或者说大统一
注2:文末附【Transformer】和【目标检测】交流群
Pix2seq
Pix2seq: A Language Modeling Framework for Object Detection
单位:谷歌大脑(Geoffrey Hinton等)
论文下载链接:https://arxiv.org/abs/2109.10852
本文介绍了 Pix2Seq,这是一个用于目标检测的简单通用框架。
与显式集成有关任务的先验知识的现有方法不同,我们简单地将目标检测转换为以观察到的像素输入为条件的语言建模任务。
Object descriptions(例如,边