2017-non-local neural networks非局部神经网络

最新推荐文章于 2023-11-08 18:05:55 发布

半分热度

最新推荐文章于 2023-11-08 18:05:55 发布

阅读量761

点赞数

分类专栏：视频分类文章标签：计算机视觉

本文链接：https://blog.csdn.net/qq_41956697/article/details/115095899

版权

非局部神经网络（Non-Local Neural Networks）旨在解决传统CNN在捕获长范围依赖关系上的局限性，受非局部均值滤波启发，通过计算所有位置特征的加权和来获取全局信息。非局部操作直接计算位置之间的关系，可以快速捕获长范围依赖，且计算效率高，易于嵌入现有网络架构。文章探讨了在不同阶段添加non-local块的效果，以及增加non-local blocks对性能的影响，展示其在视频理解和计算机视觉任务中的优势。

摘要由CSDN通过智能技术生成

这是一篇何凯明挂名的文献。

intro: CVPR 2018. CMU & Facebook AI Research
arxiv: https://arxiv.org/abs/1711.07971
github(Caffe2): https://github.com/facebookresearch/video-nonlocal-net

卷积运输和循环运算都是一次处理一个局部邻域的构造快。在本文中，我们将非局部操作作为一个通用的构建快族来捕获长期依赖关系。

作者受到NL-Means在图像去噪应用的启发，在处理序列化的任务是考虑所有的特征点来进行加权计算，克服了CNN网络过于关注局部特征的缺点。NL-Means全称：Non-Local Means，直译过来是非局部平均，在2005年由Baudes提出来给自然图像去噪声。它利用了整副图像来进行去噪，以图像块为单位在图像中寻找相似区域，再对这些区域求平均，能够比较好地去掉图像中存在的高斯噪声。

传统CNN的缺点

CNN网络，在网络的相邻两层之间使用局部连接来获取图像的局部特性，而图像的空间联系也是局部的像素联系较为紧密，而距离较远的像素相关性则较弱。因而，每个神经元只需要对局部进行感知，然后在更高层将局部的信息综合起来就得到了全局信息。底层去捕捉轮廓信息，中层的组合轮廓信息，高层的组合全局信息，最终不同的全局信息最终被综合，但由于采样以及信息逐层传递损失了大量信息，所以传统CNN在全局信息捕捉上存在局限性。
在时序任务中，RNN操作是一种主要的捕获长范围依赖手段，而在CNN中是通过堆叠多个卷积模块来形成大感受野。目前的卷积和循环算子都是在空间和时间上的局部操作，长范围依赖捕获是通过重复堆叠，并且反向传播得到。（缺点：计算效率低、优化困难、当需要在比较远位置之间来回传递消息时，这是局部操作是困难的）。非局部运算将一个位置的影响计算为所有位置特征的加权和。

非局部均值的优点

非局部操作将某个位置的响应计算为输入特征映射中所有位置特征的加权和（图1）。故作者基于图片滤波领域的非局部均值滤波操作思想，提出了一个泛化、简单、可直接嵌入到当前网络的非局部操作算子，可以捕获时间(一维时序信号)、空间(图片)和时空(视频序列)的长范围依赖。这样设计的好处是：
(1) 相比较于不断堆叠卷积和RNN算子，非局部操作直接计算两个位置(可以是时间位置、空间位置和时空位置)之间的关系即可快速捕获长范围依赖，但是会忽略其欧式距离，这种计算方法其实就是求自相关矩阵，只不过是泛化的自相关矩阵
(2) 非局部操作计算效率很高，要达到同等效果，只需要更少的堆叠层
(3) 非局部操作可以保证输入尺度和输出尺