解读Squeeze-and-Excitation Networks（SENet）

最新推荐文章于 2022-10-17 16:39:41 发布

docrazy5351

最新推荐文章于 2022-10-17 16:39:41 发布

阅读量1.6k

点赞数 2

分类专栏：计算机视觉神经网络深度学习人工智能文章标签：计算机视觉深度学习神经网络人工智能 SENet

本文链接：https://blog.csdn.net/docrazy5351/article/details/78993397

版权

本文深入解读Squeeze-and-Excitation Networks（SENet）的设计原理和优势。SENet通过通道间相关性的建模，增强重要特征，降低不重要特征，提升图像识别准确率。在ImageNet和场景分类测试中，SENet展现出了显著的性能提升，且计算复杂度增加有限。未来，这种通道注意力机制有望带来更多的研究进展。

摘要由CSDN通过智能技术生成

Squeeze-and-Excitation Networks（SENet）是由自动驾驶公司Momenta在2017年公布的一种全新的图像识别结构，它通过对特征通道间的相关性进行建模，把重要的特征进行强化来提升准确率。这个结构是2017 ILSVR竞赛的冠军，top5的错误率达到了2.251%，比2016年的第一名还要低25%，可谓提升巨大。这么大的提升是怎么来的呢？今天就来介绍下这个冠军背后的原理细节。

一、结构和原理

图1：SE Block

图1是SENet的Block单元，图中的Ftr是传统的卷积结构，X和U是Ftr的输入（C'xH'xW'）和输出（CxHxW），这些都是以往结构中已存在的。SENet增加的部分是U后的结构：对U先做一个Global Average Pooling（图中的Fsq(.)，作者称为Squeeze过程），输出的1x1xC数据再经过两级全连接（图中的Fex(.)，作者称为Excitation过程），最后用sigmoid（论文中的self-gating mechanism）限制到[0，1]的范围，把这个值作为scale乘到U的C个通道上，作为下一级的输入数据。这种结构的原理是想通过控制scale的大小，把重要的特征增强，不重要的特征减弱，从而让提取的特征指向性更强。下面来看下SENet的一些细节：
先是Squeeze部分。GAP有很多算法，作者用了最简单的求平均的方法（公式1），将空间上所有点的信息都平均成了一个值。这么做是因为最终的scale是对整个通道作用的，这就得基于通道的整体信息来计算scale。另外作者要利用的是通道间的相关性，而