注意力机制学习笔记一（SENET）

最新推荐文章于 2023-10-03 18:30:28 发布

努力学习的小白同学

最新推荐文章于 2023-10-03 18:30:28 发布

阅读量432

点赞数

文章标签：计算机视觉深度学习神经网络 pytorch

本文链接：https://blog.csdn.net/qq_45126707/article/details/120880786

版权

一.Squeeze-and-Excitation Network（SE-NET）

思路：让神经网络使用全局信息来增强有用的信息，同时抑制无用的信息。

假设： $F_{trans}$ ： $X\rightarrow U$

其中， $X\in R^{H',W',C'}$ ， $U\in R^{H,W,C}$ ， $U=\left [ u_{1},u_{2},...,u_{c} \right ]$

令 $V=\left [ v_{1},v_{2},..., v_{c}\right ]$ ，每一个 $v_{c}$ 为一个filter kernel

于是 , $u_{c}=v_{c}*X$ ，其中 $*$ 代表卷积运算，此处忽略了bias。

即长为H‘，宽为W’，通道数为C‘的X进入一个block，输出一个长为H，宽为W，通道数为C的U。

Squeeze阶段：

$z\in R^{C}$ $z_{c}=F_{sq}(u_{c})=\frac{1}{H\times W}\sum_{i=1}^{H}\sum_{j=1}^{W}u_{c}(i,j)$

即对输入的u做global avg. pooling，输出z，这个阶段相当于从U中提取一些全局的信息。

Excitation阶段：

$s=F_{ex}(z,W)=\sigma_{sigmoid}(W_{2}\sigma _{ReLU}(W_{1}z))$ ，其中 $W_{1}\in R^{\frac{C}{r},C}$ ， $W_{2}\in R^{C,\frac{C}{r}}$

$\widetilde{X_{c}}=s_{c}u_{c}$

即将上一步输出的z通过两个fully connected layer，第一个layer用ReLU激活，第二个layer用sigmoid 激活，得到s，最后将s和u相乘得到所需的输出。因为s的值域是0-1，所以s和u相乘后，没有用的信息就趋近于0，保留有用的信息。

与其他架构的整合：

这个block是可以与其他的架构进行整合的，如下图所示，左边是一个ResNet Module，右边是添加了SE block的ResNet Module。

核心代码：

#来自知乎pprp
from torch import nn


class SELayer(nn.Module):
    def __init__(self, channel, reduction=16):
        super(SELayer, self).__init__()
        self.avg_pool = nn.AdaptiveAvgPool2d(1)
        self.fc = nn.Sequential(
            nn.Linear(channel, channel // reduction, bias=False),
            nn.ReLU(inplace=True),
            nn.Linear(channel // reduction, channel, bias=False),
            nn.Sigmoid()
        )

    def forward(self, x):
        b, c, _, _ = x.size()
        y = self.avg_pool(x).view(b, c)
        y = self.fc(y).view(b, c, 1, 1)
        return x * y.expand_as(x)

附一个引路链接Face Paper：SeNet论文详解https://blog.csdn.net/wfei101/article/details/79672944https://blog.csdn.net/wfei101/article/details/79672944

努力学习的小白同学

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
注意力机制学习笔记一（SENET）

一.Squeeze-and-Excitation Network（SE-NET）思路：让神经网络使用全局信息来增强有用的信息，同时抑制无用的信息。假设：：其中，，，令，每一个为一个filter kernel于是 ,，其中代表卷积运算，此处忽略了bias。即长为H‘，宽为W’，通道数为C‘的X进入一个block，输出一个长为H，宽为W，通道数为C的U。Squeeze阶段：即对输入的u做global avg. pooling，输...
复制链接

扫一扫