Knowledge Distillation(4)——Paying more attention to attention

最新推荐文章于 2022-04-12 10:03:29 发布

judgechen1997

最新推荐文章于 2022-04-12 10:03:29 发布

阅读量1.3k

点赞数 1

分类专栏： Knowledge Distillation 知识蒸馏文章标签： DL

本文链接：https://blog.csdn.net/judgechen1997/article/details/101106265

版权

Knowledge Distillation 知识蒸馏专栏收录该内容

11 篇文章 12 订阅

订阅专栏

PAYING MORE ATTENTION TO ATTENTION: IMPROVING THE PERFORMANCE OF CONVOLUTIONAL NEURAL NETWORKS VIA ATTENTION TRANSFER 论文阅读

概述
ATTENTION TRANSFER
- Activation-based attention transfer
实验

IMPROVING THE PERFORMANCE OF CONVOLUTIONAL
NEURAL NETWORKS VIA ATTENTION TRANSFER 论文阅读

概述

不是soft target，不是隐含层hint，也不是特征变换的流程FSP（可参见专栏前三篇博客）。
本文将knowledge定义为anttention map，student模仿teacher的attention map：
在这里插入图片描述

与A gift from knowledge distillation是同一类的文章，只不过它是迁移的学习的过程，本文迁移的是注意力机制，都是迁移方式上的改进。
本文和FitNets也是一类的，FitNets迁移的是一个中间隐含层的输出，这个迁移的是attention map，且没有引入新的参数。related work部分还专门介绍了：
在这里插入图片描述
attention map不需要使用conv regressor进行尺度匹配，因为可以直接对attention map进行插值resize

ATTENTION TRANSFER

文章进行两种attention transfer方式，分别是activation-based和gradient-based，后者作者发现不太work，所以我下面主要介绍一下前者

Activation-based attention transfer

要把一个(C, H, W)映射成一个(H, W)的attention map，作者尝试定义了一些函数 $F$ ：

通道绝对值求和
绝对值指数求和
指数最大值

为了知道哪个函数更合适，作者使用几个常见网络可视化其attention map结果：

很显然，一些重要区域的激活值都比较高（所以实验使用指数p=2，帮助提高这些区域的权重）

作者以ResNet为例，对分辨率相同的feature计算attention map，又构造了一个AT loss

Q只不过是把attention map展成向量，然后还进行了归一化操作，作者说这个对于student学习非常重要。

不过第一项交叉损失是干啥的？那个是保证精度，进行hard label学习的Loss？？但论文图五没体现啊
下面这个也说了如果引入KD可以额外加一个loss，那上面第一项应该是hard label loss了。
如果是KD+AT那就有三项loss，hard label，soft target、attention transfer：

这样的方式训练完是作为pretrain还是直接end-to-end就行了呢？？？如果直接训练就行了，这要比之前student学习teacher只是作为pretrain参数要优雅不少。奇怪的是作者并没有论述这一点，之前的模型为什么这样联合训练效果不理想，attention transfer为什么就能呢？
很有可能也是作为pretrain，但是作者没说清楚……

希望我能在其他论文找到这一答案吧……或者去看看代码吧

实验

可以看AT和KD那一栏，在不同模型上knowledge distillation感觉和attention transfer各有千秋，整体KD好一点吧。而且在KD基础上加入AT还能有提升！
在这里插入图片描述

judgechen1997

关注

1
点赞
踩
7

收藏

觉得还不错? 一键收藏
2
评论
Knowledge Distillation(4)——Paying more attention to attention

PAYING MORE ATTENTION TO ATTENTION:IMPROVING THE PERFORMANCE OF CONVOLUTIONALNEURAL NETWORKS VIA ATTENTION TRANSFER概述IMPROVING THE PERFORMANCE OF CONVOLUTIONALNEURAL NETWORKS VIA ATTENTION TRANSFE...
复制链接

扫一扫