Pix2seq: A Language Modeling Framework for Object Detection

Pix2Seq:一个简单而通用的目标检测新框架, 其将目标检测转换为语言建模任务,大大简化了pipeline,性能可比肩Faster R-CNN和DETR!还可扩展到其他任务。

注1:有点像去年看到DETR的感觉,都是没有对标sota,而是跟milestone比较。所以这一两年都要把CV看成NLP来搞么,或者说大统一

注2:文末附【Transformer】和【目标检测】交流群

Pix2seq

Pix2seq: A Language Modeling Framework for Object Detection
在这里插入图片描述
单位:谷歌大脑(Geoffrey Hinton等)

论文下载链接:https://arxiv.org/abs/2109.10852

本文介绍了 Pix2Seq,这是一个用于目标检测的简单通用框架。
在这里插入图片描述

与显式集成有关任务的先验知识的现有方法不同,我们简单地将目标检测转换为以观察到的像素输入为条件的语言建模任务。
在这里插入图片描述
Object descriptions(例如,边

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值