【多模态】7、DINO | 针对 DETR-like 检测器的提升

在这里插入图片描述

论文:DINO: DETR with Improved DeNoising Anchor Boxes for End-to-End Object Detection

代码:https://github.com/IDEACVR/DINO

出处:香港大学 | 清华大学

时间:2022.07

在这里插入图片描述

一、背景

DINO:Detr with Improved deNoising anchOr boxes

DINO 是一个基于 DETR 结构的端到端目标检测器,通过对去噪训练使用对比学习的方式来提高了 DETR-like models 的性能和效果

DINO 的结构:

  • backbone
  • multi-layer Transformer encoder
  • multi-layer Transformer decoder
  • multiple prediction heads
  • 参考 DAB-DETR,作者在 decoder 中构建了 queries 作为 dynamic anchor box,并且通过 decoder layers 一步步对其进行 refine
  • 参考 DN-DETR,作者在 Transformer decoder layer 中的 ground truth label 和 box 添加了噪声,帮助模型在训练中实现更稳定的双边匹配
  • 作者还使用了 deformable attention 来提高计算效率

DINO 提出的三个新方式:

  • contrastive denoising training:

    为了提升 one-to-one matching 的效果,将一个 gt 对应的所有正负样本都加起来来实现,给一个 gt box 添加两个不同的噪声后,将噪声较小的 box 标记为 positive,另外一个标记为 negative

    能够帮助模型过滤掉同一目标的多个冗余输出

  • mixed query selection:

    改善 query 初始化

  • look forward twice:

    为了使用后面的层的 refine box information 来帮助前面层进行优化

二、方法

在这里插入图片描述

DINO: DETR with Improved DeNoising Anchor Boxes

DETR 是由两部分构成的:

  • positional part:作为 positional queries
  • content part:作为 content queries

DINO 的框架结构如图 2 所示:给定一个输入图像

  • 首先,使用 ResNet 或 Swin transformer 作为 backbone 来进行特征提取
  • 其次,将提取到的特征输入 Transformer encoder,并且加上 position embedding,进行 feature enhancement
  • 接着,使用 new mixed query selection 来初始化 anchor 作为 decoder 的 positional queries。对 content queries 不进行初始化,让其可以自己学习
  • 然后,使用 deformable attention [41] 来对 encoder 输出特征进行结合,并且逐层更新 queries
  • 最后,最终的输出是 refined anchor box 和 class result
  • 此外,类似于 DN-DETR,DINO 中也使用了 DN branch,来进行 denoising training,且在基础 DN 方法之外,还考虑的 hard negative samples

2.1 Contrastive DeNoising Training

DN-DETR 在稳定训练和加速收敛上表现很好,能够基于和 gt box 离得近的 anchor 来进行预测。

但是,DN-DETR 对附近没有 object 的 anchor 预测 “no object” 的能力较差

所以本文提出了 Contrastive DeNoising(CDN) 来剔除没用的 anchor

DN-DETR 中有一个超参 λ \lambda λ 来控制噪声尺度,生成的早上不会大于 λ \lambda λ,因为 DN-DETR 想要模型学习在适度的 noised queries 中重建 gt

DINO 中,提出了两个超参 λ 1 \lambda_1 λ1 λ 2 \lambda_2 λ2,且 λ 1 < λ 2 \lambda_1 < \lambda_2 λ1<λ2,如图 3 所示,生成两种 CDN queries:

  • positive queries:noise scale 小于 λ 1 \lambda_1 λ1,用于重建 gt box
  • negative queries:noise scale 大于 λ 1 \lambda_1 λ1 小于 λ 2 \lambda_2 λ2,用于预测 “no object”

如图 3 所示,每个 CDN group 有一系列 positive queries 和 negative queries,如果一个图像有 n 个 GT box,CDN group 会有 2n 哥 queries,因为每个 GT box 生成一个 positive 和一个 negative queries

2.3 Mixed Query Selection

如图 5c,DINO 只使用 position information 和 selected top-K features 来初始化 anchor box,保持 content queries

在这里插入图片描述

2.4 Look Forward Twice

在这里插入图片描述

三、效果

在这里插入图片描述

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
随着自动驾驶技术的不断发展,多模态感知成为了实现自动驾驶的关键技术之一。激光雷达和相机是自动驾驶中最常用的两种传感器,它们分别具有高精度测距和高分辨率成像的特点。如何将激光雷达和相机的信息融合起来,实现更加全面、准确的环境感知,成为了研究的热点。 面向自动驾驶多模态感知的激光雷达-相机融合框架主要包括以下几个步骤: 1. 数据预处理:对激光雷达和相机采集到的数据进行预处理,包括去噪、校准、配准等操作,以确保数据的准确性和一致性。 2. 特征提取:对激光雷达和相机数据进行特征提取,提取出各自的特征信息。激光雷达可以提取出点云数据,相机可以提取出图像特征点、颜色等信息。 3. 特征融合:将激光雷达和相机提取出的特征融合起来,形成一个多模态感知的环境模型。常用的融合方法包括点云-图像投影融合、特征点匹配融合等。 4. 目标检测与跟踪:利用融合后的环境模型,进行目标检测与跟踪。可以利用深度学习等方法进行目标检测,利用卡尔曼滤波等方法进行目标跟踪。 5. 场景分割与建图:根据融合后的环境模型,对环境进行场景分割,将场景分成不同的区域,同时进行三维建图,建立起环境模型。 6. 路径规划与控制:基于环境模型和目标检测结果,进行路径规划与控制,实现自动驾驶。 总之,面向自动驾驶多模态感知的激光雷达-相机融合框架可以有效提高自动驾驶系统的环境感知能力,为实现自动驾驶提供更加可靠、安全的技术支持。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

呆呆的猫

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值