18-Non-local-Neural-Networks

最新推荐文章于 2023-07-20 11:05:23 发布

jiyeyong

最新推荐文章于 2023-07-20 11:05:23 发布

阅读量689

点赞数 2

分类专栏：视频理解

本文链接：https://blog.csdn.net/u010067397/article/details/86303276

版权

本文提出非局部神经网络，受非局部均值去噪算法启发，用于解决卷积网络在捕捉长距离依赖时的局限性。非局部操作考虑所有位置的特征，能有效应用于视频分类和图像识别任务，提高了模型在视频分类和COCO数据集上的性能，特别是在物体检测、实例分割和姿态估计等方面。实验表明，非局部模块可作为通用组件，与现有模型结合使用，且在计算效率和性能上优于三维卷积网络。

摘要由CSDN通过智能技术生成

when

CVPR 2018
何凯明 RGB

what

提出了“非局部神经网络”。受计算机视觉中的经典非局部均值方法的启发而来，非局部网络可以作为一个简单高效的通用模块，嵌入现有视觉模型中，实验证明能够提高图像及视频分类精度，用作者的话说，在视频分类任务上，即使没有任何花里胡哨的处理，我们的非局部模型也能在 Kinetics 和 Charades 数据集上获得与一些当前视觉竞赛的冠军模型相当乃至更好的效果。
这篇文章除了整个故事非常完整以外，实验部分做的非常好，面面俱到地分析了各种情况，是以后写文章做实验可以学习的地方。

who （动机）

文章主要受到NL-Means在图像去噪应用中的启发，在处理序列化的任务是考虑所有的特征点来进行加权计算，克服了CNN网络过于关注局部特征的缺点。
图像去噪是非常基础也是非常必要的研究，去噪常常在更高级的图像处理之前进行，是图像处理的基础。图像中的噪声常常用高斯噪声N(μ,σ^2)来近似表示。一个有效的去除高斯噪声的方式是图像求平均，对N幅相同的图像求平均的结果将使得高斯噪声的方差降低到原来的N分之一，现在效果比较好的去噪算法都是基于这一思想来进行算法设计。
NL-Means的全称是：Non-Local Means，直译过来是非局部平均，在2005年由Baudes提出，该算法使用自然图像中普遍存在的冗余信息来去噪声。与常用的双线性滤波、中值滤波等利用图像局部信息来滤波不同的是，它利用了整幅图像来进行去噪，以图像块为单位在图像中寻找相似区域，再对这些区域求平均，能够比较好地去掉图像中存在的高斯噪声。
通常的CNN网络模拟人的认知过程，在网络的相邻两层之间使用局部连接来获取图像的局部特性，一般认为人对外界的认知是从局部到全局的，而图像的空间联系也是局部的像素联系较为紧密，而距离较远的像素相关性则较弱。因而，每个神经元其实没有必要对全局图像进行感知，只需要对局部进行感知，然后在更高层将局部的信息综合起来就得到了全局的信息。网络部分连通的思想，也是受启发于生物学里面的视觉系统结构，底层的去捕捉轮廓信息，中层的组合轮廓信息，高层的组合全局信息，最终不同的全局信息最终被综合，但由于采样以及信息逐层传递损失了大量信息，所以传统cnn在全局信息捕捉上存在局限性。

1547189580280

而在处理视频等序列化数据时，传统cnn的这种局限性就显得尤为严重了。比如在记录一场网球比赛的视频中，每一帧都能很容易的检测到他的手握拍在哪，一个卷积核就能覆盖位置也就是手腕周围的区域。
但是为了识别挥拍这个动作，仅仅关注手腕周围的信息是不够的，我们需要了解到人的手腕跟他的胳膊、肩膀、膝盖以及脚发生了哪些一系列的相对位移才能判断出挥拍动作。这些信息是将网球区别于其他运动的重要信息，因为静止来看运动员都拿着拍子站在那而已。而这些重要的全局位移信息很难被关注局部的卷积核收集到。

where

创新点

convolution和recurrent都是对局部区域进行的操作，所以它们是典型的local operations。受计算机视觉中经典的非局部均值（non-local means）的启发，本文提出一种non-local operations用于捕获长距离依（long-range dependencies），即如何建立图像上两个有一定距离的像素之间的联系，如何建立视频里两帧的联系，如何建立一段话中不同词的联系等。
non-local operations在计算某个位置的响应时，是考虑所有位置features的加权——所有位置可以是空间的，时间的，时空的。这个结构可以被插入到很多计算机视觉结构中，在视频分类的任务上，non-local模型在Kinetics和Charades上都达到了最好的结果。在图像识别的任务上，non-local模型提高了COCO上物体检测／物体分割／姿态估计等任务的结果。