SCA-CNN算法笔记

最新推荐文章于 2024-06-23 14:57:22 发布

AI之路

最新推荐文章于 2024-06-23 14:57:22 发布

阅读量1.6w

点赞数 15

分类专栏：深度学习图像描述-image caption 计算机视觉文章标签：深度学习与计算机视觉

本文链接：https://blog.csdn.net/u014380165/article/details/78681164

版权

SCA-CNN结合通道注意力和空间注意力，用于卷积网络的图像标注。通过在多层特征图上应用注意力机制，提高了模型的表现。论文在Flickr8K、Flickr30K和MSCOCO数据集上进行了实验，验证了通道注意力和多层注意力的有效性。

摘要由CSDN通过智能技术生成

论文：SCA-CNN: Spatial and Channel-wise Attention in Convolutional Networks for Image Captioning
链接：https://arxiv.org/abs/1611.05594
Github代码：https://github.com/zjuchenlong/sca-cnn

这篇是CVPR2017的文章，主要介绍在网络的multi-layer上用channel wise attention和spatial attention结合的方式来做image caption（图像标注）。attention机制的本质是训练一个权重，然后这个权重可以用来对channel做选择或者叠加在feature map的每个像素点上，比如分类网络中的SE-Net就是采用的训练权重对feature map的channel做选择的方式。直观上的理解就是不管是图像分类还是图像标注，每次网络的关注点（attention）可能只是图像中的一小部分，这也就是文中作者说的人类的视觉系统其实可以看做是一种dynamic feature extraction mechanism（动态的特征提取机制），因此如果能在模型关注某个部分的时候都强调这个部分的话，对于模型效果的提升是有帮助的，这就是attention训练得到的weight的作用。attention机制在image caption上的应用应该可以追溯到ICML2015的这篇：Show, Attend and Tell: Neural Image Caption Generation with Visual Attention文章，不过在那篇文章中主要对网络的最后一个卷积层采用spatial attention，显然作者认为这种spatial attention并不完全符合attention机制，因为CNN features are naturally spatial, channel-wise and multi-layer。所以就有了在multi-layer feature map上结合channel wise attention和spatial attention两种attention做image caption的方式。

既然要在spatial attention的基础上引入multi-layer思想和channel wise attention，那么就要看看效果怎么样。Figure1是采用channel wise attention方法处理网络的某些层（比如VGG19网络中的conv5_3和conv5_4层）后的可视化效果。选取其中权重最大的3个channel的feature map并可视化，同时展示了每个channel的feature map对应的5张图像中感受野的响应最大的区域。
为什么要引入channel wise attention？channel wise attention的本质是什么呢？举个例子：当你要预测cake时，那么channel wise attention就会使得提取到cake特征的卷积核生成的feature map的权重加大。因此作者在文中将channel wise attention总结为semantic attention，semantic attention的内容可以参看CVPR2016的论文：Image captioning with semantic attention。
为什么要引入multi-layer呢？因为高层的feature map的生成是依赖低层的feature map的

最低0.47元/天解锁文章

AI之路

关注

15
点赞
踩
62

收藏

觉得还不错? 一键收藏
13
评论
SCA-CNN算法笔记

论文：SCA-CNN: Spatial and Channel-wise Attention in Convolutional Networks for Image Captioning 链接：https://arxiv.org/abs/1611.05594 Github代码：https://github.com/zjuchenlong/sca-cnn这篇是CVPR2017的文章，主要介绍在网络
复制链接

扫一扫

专栏目录