CV领域常用的注意力机制模块（SE、CBAM，怒斩腾讯和阿里的Offer

最新推荐文章于 2024-04-19 16:00:15 发布

2401_84164546

最新推荐文章于 2024-04-19 16:00:15 发布

阅读量129

点赞数 3

分类专栏： 2024年程序员学习文章标签：深度学习人工智能

本文链接：https://blog.csdn.net/2401_84164546/article/details/137558425

版权

2024年程序员学习专栏收录该内容

113 篇文章 0 订阅

订阅专栏

        out = self.relu(out)

        return out


 


### 二、CBAM模块（Convolutional Block Attention Module）


![在这里插入图片描述](https://img-blog.csdnimg.cn/20200603162817846.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3dlaXhpbl80MjkwNzQ3Mw==,size_16,color_FFFFFF,t_70)  
 该注意力模块( CBAM )，可以在**通道和空间维度上进行 Attention** 。其包含两个子模块 **Channel Attention Module(CAM)** 和 **Spartial Attention Module(SAM)**。  
  


##### 1、CAM的结构是怎样的？与SE有何区别？


![在这里插入图片描述](https://img-blog.csdnimg.cn/20200603163856177.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3dlaXhpbl80MjkwNzQ3Mw==,size_16,color_FFFFFF,t_70)  
 其结构如上图所示，相比SE，只是多了一个并行的Max Pooling层。那为什么加个并行的呢？结果导向，作者通过实验说明这样的效果好一些，我感觉其好一些的原因应该是多一种信息编码方式，使得获得的信息更加全面了吧，可能再加一些其他并行操作效果会更好？


##### 2、SAM的结构


![在这里插入图片描述](https://img-blog.csdnimg.cn/20200603164706942.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3dlaXhpbl80MjkwNzQ3Mw==,size_16,color_FFFFFF,t_70)  
 将CAM模块输出的特征图作为本模块的输入特征图。首先做一个基于channel的**global max pooling** 和**global average pooling**，然后将这2个结果基于channel 做concat操作。然后经过一个卷积操作，降维为1个channel。再经过**sigmoid生成spatial attention feature**。最后将**该feature和该模块的输入feature做乘**法，得到最终生成的特征。下图是原文描述：  
 ![在这里插入图片描述](https://img-blog.csdnimg.cn/20200603170208507.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3dlaXhpbl80MjkwNzQ3Mw==,size_16,color_FFFFFF,t_70)


##### 3、组合方式


通道注意力和空间注意力这两个模块可以以并行或者顺序的方式组合在一起，但是作者发现顺序组合并且将通道注意力放在前面可以取得更好的效果。而且是先CAM再SAM效果会更好。论文还将结果可视化，对比发现添加了 CBAM 后，模型会更加关注识别物体:  
 ![在这里插入图片描述](https://img-blog.csdnimg.cn/202006031706528.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3dlaXhpbl80MjkwNzQ3Mw==,size_16,color_FFFFFF,t_70)


##### 4、CBAM的代码实现


CBAM的 **Pytorch** 实现：

class Channel_Attention(nn.Module):

def \_\_init\_\_(self, channel, r):
    super(Channel_Attention, self).__init__()

    self.__avg_pool = nn.AdaptiveAvgPool2d((1, 1))
    self.__max_pool = nn.AdaptiveMaxPool2d((1, 1))

    self.__fc = nn.Sequential(
        nn.Conv2d(channel, channel//r, 1, bias=False),
        nn.ReLU(True),
        nn.Conv2d(channel//r, channel, 1, bias=False),
    )
    self.__sigmoid = nn.Sigmoid()


def forward(self, x):
    y1 = self.__avg_pool(x)
    y1 = self.__fc(y1)

    y2 = self.__max_pool(x)
    y2 = self.__fc(y2)

    y = self.__sigmoid(y1+y2)
    return x \* y

class Spartial_Attention(nn.Module):

def \_\_init\_\_(self, kernel_size):
    super(Spartial_Attention, self).__init__()

    assert kernel_size % 2 == 1, "kernel\_size = {}".format(kernel_size)
    padding = (kernel_size - 1) // 2

    self.__layer = nn.Sequential(
        nn.Conv2d(2, 1, kernel_size=kernel_size, padding=padding),
        nn.Sigmoid(),
    )


def forward(self, x):
    avg_mask = torch.mean(x, dim=1, keepdim=True)
    max_mask, _ = torch.max(x, dim=1, keepdim=True)
    mask = torch.cat([avg_mask, max_mask], dim=1)

    mask = self.__layer(mask)
    return x \* mask




**自我介绍一下，小编13年上海交大毕业，曾经在小公司待过，也去过华为、OPPO等大厂，18年进入阿里一直到现在。**

**深知大多数Linux运维工程师，想要提升技能，往往是自己摸索成长或者是报班学习，但对于培训机构动则几千的学费，着实压力不小。自己不成体系的自学效果低效又漫长，而且极易碰到天花板技术停滞不前！**

**因此收集整理了一份《2024年Linux运维全套学习资料》，初衷也很简单，就是希望能够帮助到想自学提升又不知道该从何学起的朋友，同时减轻大家的负担。**
![img](https://img-blog.csdnimg.cn/img_convert/7cb5c90653cb782eebd6ef3443bc70a7.png)
![img](https://img-blog.csdnimg.cn/img_convert/da1b634b17a61b591104ffad2b5178f7.png)
![img](https://img-blog.csdnimg.cn/img_convert/777b5b51f0f0d850c9908fca045a3fb5.png)
![img](https://img-blog.csdnimg.cn/img_convert/0afcd9fe8542dab2d52f6f8368d9f222.png)
![img](https://img-blog.csdnimg.cn/img_convert/dc662fe942fe153e3b2fb278ab06b488.png)

**既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，基本涵盖了95%以上Linux运维知识点，真正体系化！**

**由于文件比较大，这里只是将部分目录大纲截图出来，每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频，并且后续会持续更新**

**如果你觉得这些内容对你有帮助，可以添加VX：vip1024b （备注Linux运维获取）**
![img](https://img-blog.csdnimg.cn/img_convert/7ae4967e5a6c9c0c5b85876a353395ca.jpeg)



为了做好运维面试路上的助攻手，特整理了上百道 **【运维技术栈面试题集锦】** ，让你面试不慌心不跳，高薪offer怀里抱！

这次整理的面试题，**小到shell、MySQL，大到K8s等云原生技术栈，不仅适合运维新人入行面试需要，还适用于想提升进阶跳槽加薪的运维朋友。**

![](https://img-blog.csdnimg.cn/img_convert/58bcbbbb432e2973861a5412416ab3b2.png)

本份面试集锦涵盖了

*   **174 道运维工程师面试题**
*   **128道k8s面试题**
*   **108道shell脚本面试题**
*   **200道Linux面试题**
*   **51道docker面试题**
*   **35道Jenkis面试题**
*   **78道MongoDB面试题**
*   **17道ansible面试题**
*   **60道dubbo面试题**
*   **53道kafka面试**
*   **18道mysql面试题**
*   **40道nginx面试题**
*   **77道redis面试题**
*   **28道zookeeper**

**总计 1000+ 道面试题， 内容 又全含金量又高**

*   **174道运维工程师面试题**

> 1、什么是运维?

> 2、在工作中，运维人员经常需要跟运营人员打交道，请问运营人员是做什么工作的?

> 3、现在给你三百台服务器，你怎么对他们进行管理?

> 4、简述raid0 raid1raid5二种工作模式的工作原理及特点

> 5、LVS、Nginx、HAproxy有什么区别?工作中你怎么选择?

> 6、Squid、Varinsh和Nginx有什么区别，工作中你怎么选择?

> 7、Tomcat和Resin有什么区别，工作中你怎么选择?

> 8、什么是中间件?什么是jdk?

> 9、讲述一下Tomcat8005、8009、8080三个端口的含义？

> 10、什么叫CDN?

> 11、什么叫网站灰度发布?

> 12、简述DNS进行域名解析的过程?

> 13、RabbitMQ是什么东西?

> 14、讲一下Keepalived的工作原理?

> 15、讲述一下LVS三种模式的工作过程?

> 16、mysql的innodb如何定位锁问题，mysql如何减少主从复制延迟?

> 17、如何重置mysql root密码?

**一个人可以走的很快，但一群人才能走的更远。不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎扫码加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！**
![img](https://img-blog.csdnimg.cn/img_convert/ae68912afafbea3fd0446a8e39a8df97.jpeg)

减少主从复制延迟?

> 17、如何重置mysql root密码?

**一个人可以走的很快，但一群人才能走的更远。不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎扫码加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！**
[外链图片转存中...(img-h9JLDbPJ-1712652214977)]