#今日论文推荐# ICLR2022 ViDT | 检测超越YOLOS，实例分割超越SOLOv2，同时达到实时.

wwwsxn

已于 2022-04-26 16:16:03 修改

阅读量1.9k

点赞数

文章标签：算法数据结构数据库架构

于 2022-04-21 11:23:51 首次发布

原文链接：https://www.aminer.cn/research_report/6260c6257cb68b460fa4cae7?f=cs

版权

本文介绍了ViDT，一个结合了Vision和Detection Transformers的高效目标检测器。该模型通过重新设计的注意力模块及计算高效的Transformer解码器，实现了在不显著增加计算负担的情况下提升检测性能，同时达到了实时检测的能力。ViDT是首个完全端到端的检测系统，其性能超越了YOLO和SOLOv2在实例分割上的表现。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

#今日论文推荐# ICLR2022 ViDT | 检测超越YOLOS，实例分割超越SOLOv2，同时达到实时！！！

Transformers被广泛应用于许多视觉问题，特别是视觉识别和检测。Detection Transformers是第一个完全端到端的目标检测学习系统，而Vision Transformers是第一个完全基于Transformer的图像分类体系结构。
在本文中，整合Vision和Detection Transformers(ViDT)来构造一个有效且高效的目标检测器。ViDT引入了一个重新设计的注意力模块，将最近的Swin Transformer扩展为一个独立的目标检测器，然后是一个计算高效的Transformer解码器，利用多尺度特征和辅助技术，在不增加太多计算负载的情况下提高检测性能。

论文：An Extendable, Efficient and Effective Transformer-based Object Detector
全文解读：https://www.aminer.cn/research_report/6260c6257cb68b460fa4cae7?download=false?f=cshttps://www.aminer.cn/research_report/6260c6257cb68b460fa4cae7?f=cs

AMiner链接：https://www.aminer.cn/?f=cs

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。