ICLR 2021 KNOWLEDGE DISTILLATION

IMPROVE OBJECT DETECTION WITH FEATURE-BASED KNOWLEDGE DISTILLATION: TOWARDS ACCURATE AND EFFICIENT DETECTORS学习笔记

ICLR2021

Introduction

  • 大多数为图像分类设计的知识蒸馏网络在目标检测任务中效果不好,原因是:

    • 前景和背景像素之间不平衡
    • 缺乏对不同像素之间关系的提炼
  • 基于以上两个原因,本文分别做了以下工作:

    • attention-guided distillation 注意力引导蒸馏:通过注意力机制来发现前景物体的关键像素,从而使学生更加努力地学习其特征。
    • non-local distillation非局部蒸馏:使学生不仅能够学习单个像素的特征,而且能够学习由非局部模块捕获的不同像素之间的关系。
  • 本文提出的两个模块只在训练的时候需要,在推理的过程中不会引入额外的计算

  • 本文的方法是基于特征的蒸馏,可以直接用于所有类型的目标检测器

  • 不同于图像分类的知识蒸馏中高AP的教师网络会对学生网络造成负面影响,目标检测中的知识蒸馏需要高AP的教师网络

  • 相当于是基于这篇工作进行改进Distilling object detectors with fine-grained feature imitation

METHODOLOGY

在这里插入图片描述

ATTENTION-GUIDED DISTILLATION

  • 空间注意力 G s G^s Gs(每一点上C个通道的平均值):
  • 通道注意力 G c G^c Gc(每个通道上所有点的平均值):

  • 空间注意力Mask M s M^s Ms:
    在这里插入图片描述

  • 通道注意力Mask M c M^c Mc:

    M c = C ⋅ s o f t m a x ( ( G c ( A S ) + G c ( A τ ) ) / T ) M^c=C ·softmax((G^c(A^S) +G^c(A^τ))/T) Mc=Csoftmax((Gc(AS)+Gc(Aτ))/T)

    T T T是softmax中的超参数,用来调节注意力mask中元素的分布:

在这里插入图片描述

  • ATTENTION-GUIDED DISTILLATION的损失 L A G D L_{AGD} LAGD由两部分组成:attention transfer loss L A T L_{AT} LAT和attention-masked loss L A M L_{AM} LAM

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

NON-LOCAL DISTILLATION

在这里插入图片描述

OVERALL LOSS FUNCTION

在这里插入图片描述

EXPERIMENT

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

Ablation study

在这里插入图片描述

Sensitivity study on hyper-parameters

在这里插入图片描述

Sensitivity study on the types of non-local modules

在这里插入图片描述

Discussion

  • 各个方面都有提高

在这里插入图片描述

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值