【Paper Reading·3Det 】On the Importance of Pretrained Knowledge Distillation for 3D Object Detection

URL
https://openreview.net/pdf?id=T1Qx6EC08o

TL;DR

利用知识蒸馏来增强camera-based方法的特征学习。具体做法如下:

  • 预训练一个高性能专家模型;
  • 先从专家模型学习知识;
  • 再在下游任务中进行微调;

Dataset/Algorithm/Model/Experiment Detail

image
image
1217×562 104 KB

模型结构
专家模型: lidar backbone 使用 TransFusion-L的backbone
为了对齐bev表征,师生使用相同的head。expert预先训练一个高性能模型。

image
image
1015×798 229 KB

Predistill

pipline分为三部分:

  • expert learning:先训练在一个3D检测任务,使用点云作为输入;
  • pretraining:multi-view image作为输入,文章提出了一个 selective focus module模块,提供weighted mask, 来描述点云的密度信息;
    image
  • finetuning: 学徒网络在3D检测任务上训练;同时,camera head使用和点云一样的head;因为BEV特征已经对齐,所以直接复制了点云的head,能更快收敛。 inference过程不变。

Refinements

**Selective Focus in Pretraining: ** 噪声主要来自于不准确的depth. 在BEV空间,点云数据提供更 attentive 的特征表达。由于激光雷达数据中点数量较少的区域不太可能提供高可信度的有用特征,提取这些区域的知识可能使网络偏离正确的优化目标。所以文章利用来自点云数据密度的统计提示来限制蒸馏区域。每个bev 特征points对应的pillars内包含的点云points;
本质是提出了一种特征蒸馏选区域的新的见解。

Duplication in Finetuning
BEV表示对齐后,camera学习到的特征表示分布应该遵循lidar的分布;所以camera直接复制了lidar的head和权重。

EXPERIMENTS
image
image
1229×445 88.6 KB
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
加了channel-wise normalization

Thoughts

一个亮点是,有别于之前利用object选取,本文提出利用点云密度来帮助选取,效果不错,证明了前背景信息都很重要。
本文重点在pretraining阶段,为了对齐特征表示,从老师那里学习知识,用了选区蒸馏,channel-wise等。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

烤粽子

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值