DetMatch: Two Teachers are Better Than One for Joint 2D and 3D Semi-Supervised Object Detection论文阅读

最新推荐文章于 2024-09-14 19:06:56 发布

叶小侠

最新推荐文章于 2024-09-14 19:06:56 发布

阅读量268

点赞数

分类专栏：论文阅读文章标签： 3d 目标检测论文阅读

原文链接：https://arxiv.org/pdf/2203.09510

版权

论文阅读专栏收录该内容

3 篇文章 0 订阅

订阅专栏

DetMatch: Two Teachers are Better Than One for Joint 2D and 3D Semi-Supervised Object Detection论文阅读
Park, Jinhyung, Chenfeng Xu, Yiyang Zhou, Masayoshi Tomizuka, and Wei Zhan. "DetMatch

Motivation

之前只有单独的2D半监督和3D半监督，放着配对好的图像和3D数据不用！
利用多模态的数据来训练更强大的单个模态的检测器
一方面，3D点云稀疏，缺乏颜色信息，所以结构相同的物体很难分辨。但是因为有深度所以空间可分
另一方面，RGB图像缺乏深度信息，对于有overlap的物体比较难区分
为了利用2D和3D的互补信息，同时保持2D模型和3D模型的独立性，我们选择后融合2D和3D结果

Contribution

1. 观察到2D和3D中不同的特性使得高遮挡的物体在3D中更容易检测到，形状相同但是类别不同的物体在2D中更容易被检测
2. 构建了这个跨模态半监督框架使得每个单模态检测器都从多模态数据中获益

实验KITTI 和Waymo

Overview

在这里插入图片描述

在单模态的老师和学生网络的基础上，
学生模态的输入使用strong augmentations，老师的输入是weak augmentations。
在2d 3D的输出后加上一个匈牙利匹配产生2D和3D的对应来产生伪标签，
其中相似性的计算分为三个部分：3D box投影成2D box后，l1的计算，IoU的计算以及分类分数双向的focal loss
为了让3D学习到2D中的语义信息，构建了一个2D-3D consistency
和匹配相同，分为三个部分，不过是发生在用2D teacher 来监督3D student box的，focal loss也改为了单向的。