特征图注意力_计算机视觉中的Non-local-Block以及其他注意力机制

非局部块是为了解决计算机视觉中远距离信息传递问题,提高长距离依赖,其核心思想是某像素点响应是所有点特征的加权和。论文介绍了Non-local在神经网络的实现,包括不同度量函数和网络结构,并通过实验展示了其在行为分类等任务中的优势。Non-local可以视为通道和空间级别的泛化,增强了全局联系。后续工作在此基础上发展了更多注意力机制的变体。
摘要由CSDN通过智能技术生成

93497c614f51bc8aca5ff222c42e49ed.png
Non-local Neural Networks​arxiv.org

之前看的一篇论文继续总结一下,本质是一种注意力机制模块,文章相对来说比较老,CVPR2018。

我将从以下几个方面总结一下论文,也有一点自己的整理,欢迎拍砖。

为什么提出Non-local?

计算机视觉领域,尤其对于动态视频序列中,帧内帧间的依赖关系十分重要。尤其像下图1中视频的行为分类任务,全局内容的理解以及不同帧间的联系对于分类结果导向作用很强。现在比较通用普遍的做法是,通过循环卷积网络联系

,或者通过更深的网络增大感受野提高对全局内容的理解。

尽管如此,这种方式仍旧是比较local的,不论时间方向或者空间位置。甚至,最大的问题是:没法进行远距离信息的来回传递;而且deeper网络计算量大但效率低,梯度优化起来也比较困难。

因此,针对远距离信息传递问题,提高长距离依赖,本论文从传统的非局部均值滤波方法中受到启发,提出了卷积网络中的non-local,即:某一像素点处的响应是其他所有点处的特征权重和,将每一个点与其他所有点相关联,实现non-local 思想。

自评:文章解决的痛点targetable,有意义。而且解决方法也有图像处理基础,禁得起推敲

e149c5ee6f99e9257d7f4ce30b1586eb.png
图1. 引入问题

Non-local 的思想和简单数学原理

Non-local的核心思想就是上面说的,某一像素点处的响应是其他所有点处的特征权重和

因此,假设对于一个

特征图,总共是
(拉平操作)个位置,每个位置都与其他位置(包括本身位置)有关联性度量,就会得到
的关联性矩阵,而这个关联性矩阵其实可以理解为像素彼此之间的关联权重矩阵,因为不同像素点间的关联性都是不同的,因此经过归一化后的这个权重矩阵本质上就实现了注意力。

当将这个

的权重再与原特征图
做矩阵乘时,得到的
矩阵就是该
  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值