MonoDistill 阅读笔记 ICLR2022

BoGoF666

已于 2022-01-30 12:08:15 修改

阅读量3.4k

点赞数

分类专栏： 3D Vision Paper Reading 文章标签：计算机视觉深度学习人工智能

于 2022-01-30 11:25:45 首次发布

本文链接：https://blog.csdn.net/weixin_38210977/article/details/122750707

版权

3D Vision Paper Reading 专栏收录该内容

6 篇文章 1 订阅

订阅专栏

标题：

MONODISTILL: LEARNING SPATIAL FEATURES FOR MONOCULAR 3D OBJECT DETECTION
文章链接：https://arxiv.org/abs/2201.10830
代码链接：https://github.com/monster-ghost/MonoDistill

创新点：

借助创新的蒸馏框架，在推理阶段不引入任何额外成本的情况下，将深度信号引入单目3D检测器，提升检测性能；

网络框架：

MonoDistill 框架图
MonoDistill主要包含了以下三个部分的蒸馏：

特征空间 Scene-level Distillation（场景层蒸馏）：
- 作用：场景级知识可以通过编码特征的相对关系、保持知识结构和缩小模态差距来帮助单目三维检测器对给定图像建立高层次的理解
- 将结构高维信息通过Affinity map进行建模和学习，而不是通过特征本身
- Affinity map(AM)的构造函数（下图）， $f_i$ 和 $f_j$ 表示第i和第j个特征向量， $f_i^Tf_j$ 相乘后得到AM matrix，然后L2正则化了一下
- $A^t$ 代表teacher网络中特征的AM， $A^s$ 代表student网络的AM，算了一个L1的蒸馏loss，并进行了归一化，得到第一个场景蒸馏loss: $\mathcal{L}_{sf}$
- Trick：由于AM的计算和存储复杂度与k成二次幂相关，为了降低开销，作者提出将所有特征分组到几个局部区域，并使用局部区域的特征相似性图(affinity map)来解决开销问题
特征空间 Object-level distillation(物体层蒸馏)：
- 直接使用特征进行蒸馏，但是特征图存在背景噪声，背景区域占据比重较多但是有效信息量少，这里使用gt_2d_bbox_mask( $M_{of}$ )抠出前景来消除背景噪声，计算蒸馏loss $\mathcal{L}_{of}$ 的公式如下， $F_s$ , $F_t$ 分别是student和teacher的特征图， $N_{pos}$ 是有效特征向量的数量
预测空间 Object-level distillation(物体层蒸馏)：
- 将teacher的输出作为soft label来监督student，只取前景预测，背景预测多是false-positive，区别前背景则使用bbox的中心点区域(ref: CenterNet)，下图：左-将框的中心点作为前景区域，右-基于中心点和框的大小生成2D高斯中心点区域
- $\mathcal{L}_{or}$ 是蒸馏L1损失， $M_{or}$ 是正负样本mask，N是样本总量
最后将三部分loss进行一个加权求和，则得到了最终的loss，这里的student网络使用的是MonoDLE， $\mathcal{L}_{src}$ 则是MonoDLE的loss