transformer在视觉检测的应用
近年,Transformers在计算机视觉领域大放异彩。将transformer带入目标检测/实例分割的工作如过江之鲫,不胜枚举。而2020年Detection Transformers(detr)更是带来一种新的目标检测范式,启发了后续众多的工作。
detr简介
detr的结构如上图所示,图片经过cnn主干网络后得到特征图,加入位置信息后送入transfomer encoder,和一队可训练的object queries在transfomer decoder中进行交叉注意力计算,输出的结果经过FFN后直接得到回归框和类别分数,不需要nms等后处理,做到真正的端到端。
detr中使用的transformer结构如上图所示,可以看到其由encoder和decoder两大部分组成,其中encoder主要由self attention和ffn重复N次组成,decoder由self attention、cross attention、ffn重复M次组成(论文中N和M均为6),图中的“add&norm”分别代表残差结构和layernorm层。transformer解耦了cnn中的Spat