Day 4: Squeeze-and-Excitation Networks

最新推荐文章于 2023-03-22 17:28:18 发布

ttppss

最新推荐文章于 2023-03-22 17:28:18 发布

阅读量85

点赞数

分类专栏：论文研读文章标签：深度学习人工智能机器学习计算机视觉 ieee论文

本文链接：https://blog.csdn.net/ttppss/article/details/116591870

版权

18 篇文章 3 订阅

订阅专栏

本来昨天应该再更一篇，但实在没来得及，就把之前的 Day 3 Two 当成是昨天的吧，今天继续正式的Day 4，讲解之前已经用过的结构，也是非常有名的 SE-Net，Squeeze and Excitation Network.

总结

SE block 的提出，对feature map不同channel之间的相关性进行了单独地建模，以提高模型的表征能力
感觉作者还是在暂时没有理论基础的情况下，试一些新的想法，果然视觉这一块更多的时候还是实验科学，炼丹炉的命运还在继续；不过，科学里不是还有实验物理嘛，实验总是可以指导理论的，说不定以后理论就慢慢追上来了，who knows ……
SE Block 应用的场景还是挺广的，不知道目前是否还具有很高的价值，虽然之前用了，但感觉效果并没有特别惊艳，也就和ResNext差不多，接下来还有待……嗯……多实验……

SENet的SE Block是在经过卷积处理后的 feature map 上进行操作的，这一点需要注意。
接以上，之所以是对 feature map 进行操作，是因为整个网络的思路是需要找 feature map 上各通道之间的一些相关性，比如这张图片，到底哪个channel上对最后的分类有最大的影响，而不是看原图的RGB channel。
因此，设计思路即为，先将经过处理后的 feature map，用Global Average Pooling (GAP)，按照通道 squeeze 成 $\times 1 \times C$ 大小的向量，即每个channel都被压成一个数值。

$z_{c}=\mathbf{F}_{s q}\left(\mathbf{u}_{c}\right)=\frac{1}{W \times H} \sum_{i=1}^{W} \sum_{j=1}^{H} u_{c}(i, j) .$

把如上的数值送入sigmoid，压到0-1之间，把这个值当作类似于权重的东西，分配给接下来的channel。
根据上一步得到的数值，乘到 feature map 的每个通道上，将重要的特征增强，不重要的减弱。
Excitation部分是用2个全连接来实现，第一个全连接把C个通道压缩成了C/r个通道来降低计算量（后面跟了RELU），第二个全连接再恢复回C个通道（后面跟了Sigmoid），r是指压缩的比例。作者尝试了r在各种取值下的性能，最后得出结论r=16时整体性能和计算量最平衡。
为什么要加全连接层呢？这是为了利用通道间的相关性来训练出真正的scale。一次mini-batch个样本的squeeze输出并不代表通道真实要调整的scale值，真实的scale要基于全部数据集来训练得出，而不是基于单个batch，所以后面要加个全连接层来进行训练。

在这里插入图片描述
Reference: https://zhuanlan.zhihu.com/p/32702350

关注

专栏目录