DETRs Beat YOLOs on Real-time Object Detection
最近看到百度写的一篇还算不错的DETR论文,通过简化DINO的encoder层将模型加速到实时水平,翻译了下,以作记录。
论文地址:https://arxiv.org/pdf/2304.08069.pdf
开源地址:https://github.com/PaddlePaddle/PaddleDetection
模型结构
RT-Detr网络首先利用骨干网络{S3,S4,S5}的最后三个阶段的特征作为encoder的输入。encoder通过尺度内特征交互(AIFI,按文中的说法其实就是一个transformer layer)和跨尺度特征融合模块(CCFM)将多尺度特