![93497c614f51bc8aca5ff222c42e49ed.png](https://i-blog.csdnimg.cn/blog_migrate/b007ae2872a455a001c7210e08849f2b.jpeg)
之前看的一篇论文继续总结一下,本质是一种注意力机制模块,文章相对来说比较老,CVPR2018。
我将从以下几个方面总结一下论文,也有一点自己的整理,欢迎拍砖。
为什么提出Non-local?
计算机视觉领域,尤其对于动态视频序列中,帧内帧间的依赖关系十分重要。尤其像下图1中视频的行为分类任务,全局内容的理解以及不同帧间的联系对于分类结果导向作用很强。现在比较通用普遍的做法是,通过循环卷积网络联系
尽管如此,这种方式仍旧是比较local的,不论时间方向或者空间位置。甚至,最大的问题是:没法进行远距离信息的来回传递;而且deeper网络计算量大但效率低,梯度优化起来也比较困难。
因此,针对远距离信息传递问题,提高长距离依赖,本论文从传统的非局部均值滤波方法中受到启发,提出了卷积网络中的non-local,即:某一像素点处的响应是其他所有点处的特征权重和,将每一个点与其他所有点相关联,实现non-local 思想。
自评:文章解决的痛点targetable,有意义。而且解决方法也有图像处理基础,禁得起推敲
![e149c5ee6f99e9257d7f4ce30b1586eb.png](https://i-blog.csdnimg.cn/blog_migrate/71f32ce7d2b573b99b2a6336061a3f51.jpeg)
Non-local 的思想和简单数学原理
Non-local的核心思想就是上面说的,某一像素点处的响应是其他所有点处的特征权重和。
因此,假设对于一个
当将这个