SCA-CNN算法笔记

论文:SCA-CNN: Spatial and Channel-wise Attention in Convolutional Networks for Image Captioning
链接:https://arxiv.org/abs/1611.05594
Github代码:https://github.com/zjuchenlong/sca-cnn

这篇是CVPR2017的文章,主要介绍在网络的multi-layer上用channel wise attention和spatial attention结合的方式来做image caption(图像标注)。attention机制的本质是训练一个权重,然后这个权重可以用来对channel做选择或者叠加在feature map的每个像素点上,比如分类网络中的SE-Net就是采用的训练权重对feature map的channel做选择的方式。直观上的理解就是不管是图像分类还是图像标注,每次网络的关注点(attention)可能只是图像中的一小部分,这也就是文中作者说的人类的视觉系统其实可以看做是一种dynamic feature extraction mechanism(动态的特征提取机制),因此如果能在模型关注某个部分的时候都强调这个部分的话,对于模型效果的提升是有帮助的,这就是attention训练得到的weight的作用。attention机制在image caption上的应用应该可以追溯到ICML2015的这篇:Show, Attend and Tell: Neural Image Caption Generation with Visual Attention文章,不过在那篇文章中主要对网络的最后一个卷积层采用spatial attention, 显然作者认为这种spatial attention并不完全符合attention机制,因为CNN features are naturally spatial, channel-wise and multi-layer。所以就有了在multi-layer feature map上结合channel wise attention和spatial attention两种attention做image caption的方式。

既然要在spatial attention的基础上引入multi-layer思想和channel wise attention,那么就要看看效果怎么样。Figure1是采用channel wise attention方法处理网络的某些层(比如VGG19网络中的conv5_3和conv5_4层)后的可视化效果。选取其中权重最大的3个channel的feature map并可视化,同时展示了每个channel的feature map对应的5张图像中感受野的响应最大的区域。
为什么要引入channel wise attention?channel wise attention的本质是什么呢?举个例子:当你要预测cake时,那么channel wise attention就会使得提取到cake特征的卷积核生成的feature map的权重加大。因此作者在文中将channel wise attention总结为semantic attention,semantic attention的内容可以参看CVPR2016的论文:Image captioning with semantic attention。
为什么要引入multi-layer呢?因为高层的feature map的生成是依赖低层的feature map的

  • 15
    点赞
  • 62
    收藏
    觉得还不错? 一键收藏
  • 13
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 13
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值