1.背景
DETR是把transformer用在high-lever vision这类工作的先驱,是2020年cvpr中提出的,引起了广泛的关注。
它将目标检测视为集合预测问题,去掉了目标检测种很多手工的组件像 NMS,anchor generation 等。
2.算法过程
DETR首先把CNN当作主干网络从输入图像中提取特征,同时还加入图像的位置信息补充图像特征,接着把特征展开,转换成可以输入Transformer的编码序列,最后输入Transformer得到预测的class label 和bonding box。
3.训练过程(评判标准)
训练过程主要依赖于二分图匹配算法,它是以在预测值和真实标签之间进行损失计算得到最佳配比的方式来训练模型。(结果不在设定阈值范围内的会得到惩罚)
4.DETR模型的缺点和改进
1)优点:DETR做到了真正没有非最大抑制(NMS)后处理,而且不需要anchor(锚点生成)。
2)缺点:训练时间较长,对小目标的检测性能不是很高。
3)解决:建议使用可变形注意模块(deformable attention module)代替原始的多头注意力来关注参考点周围的关键位置。 这样能大大降低计算的复杂度,也有利于快速收敛。
DETR
最新推荐文章于 2024-04-14 14:49:34 发布