一、 前言 最近在看transformer相关的模型,其中vit还好,结构简单,decode与位置编码都没有。看到DETR才觉得比较“齐全”,该有的都有了。怕以后忘记,画个图,帮助记忆,顺便抛砖引玉,如有错误欢迎各位大佬指正。 二、 结构图 根据官方代码画的,最好是结合代码观看,再结合下面这张图看就更加好理解了。 上图是每个encode、deconde模块内部的情况。