链接:2017 Learning Efficient Object Detection Models withKnowledge Distillation
这篇论文是基于 Faster--RCNN模型的 ,模型中的RPN部分对应图中Soft Label对应部分 RCN部分对应的是最右侧的预测,最终的Loss表示为
一点一点看哈
【1】先看左边的部分,是选取Teacher模型的中间层,以及Student的一个中间层。添加个适应层Adaptation,保证Teacher和Student同尺寸。
【2】再看RCN部分,这部分就是Student模型的输出了,标签就是数据集标签。对应的loss是hart-loss
N为每批次数量
【3】RPN部分,这部分由Teacher指导输出,所以loss为soft-loss
对于Lreg:平滑的L1损失
对于类别的判断计算方法:
其中:
T:是一个温度参数(通常设置为1)
Z:是预测分数
w:
w0 = 1.5 background class
wi = 1 for all the others