detr和transformer的区别 简而言之,就是detr的decoder端没有严格的时序关系,就是可以并行的解码,对于N=100个object query embedding,直接利用self-attention解码即可,在训练时,也不需要加上mask attention,就是像输入一样即可。