DetMatch: Two Teachers are Better Than One for Joint 2D and 3D Semi-Supervised Object Detection论文阅读
Park, Jinhyung, Chenfeng Xu, Yiyang Zhou, Masayoshi Tomizuka, and Wei Zhan. "DetMatch
Motivation
之前只有单独的2D半监督和3D半监督,放着配对好的图像和3D数据不用!
利用多模态的数据来训练更强大的单个模态的检测器
一方面,3D点云稀疏,缺乏颜色信息, 所以结构相同的物体很难分辨。但是因为有深度所以空间可分
另一方面,RGB图像缺乏深度信息,对于有overlap的物体比较难区分
为了利用2D和3D的互补信息,同时保持2D模型和3D模型的独立性,我们选择后融合2D和3D结果
Contribution
1. 观察到2D和3D中不同的特性使得高遮挡的物体在3D中更容易检测到,形状相同但是类别不同的物体在2D中更容易被检测
2. 构建了这个跨模态半监督框架使得每个单模态检测器都从多模态数据中获益
- 实验KITTI 和Waymo
Overview
- 在单模态的老师和学生网络的基础上,
- 学生模态的输入使用strong augmentations,老师的输入是weak augmentations。
- 在2d 3D的输出后加上一个匈牙利匹配产生2D和3D的对应来产生伪标签,
其中相似性的计算分为三个部分:3D box投影成2D box后,l1的计算,IoU的计算以及分类分数双向的focal loss - 为了让3D学习到2D中的语义信息,构建了一个2D-3D consistency
和匹配相同,分为三个部分,不过是发生在用2D teacher 来监督3D student box的,focal loss也改为了单向的。
What’s more
这种跨模态的半监督检测刚刚开始,对于如何利用2D和3D的信息进行交叉的监督应该还是有发展前景的