【论文笔记】Non-local Neural Networks

最新推荐文章于 2025-03-25 10:16:44 发布

Elaine_Bao

最新推荐文章于 2025-03-25 10:16:44 发布

阅读量7.2w

点赞数 99

分类专栏：计算机视觉文章标签：视频分类

本文链接：https://blog.csdn.net/elaine_bao/article/details/80821306

版权

Paper：https://arxiv.org/abs/1711.07971v1
Author：Xiaolong Wang, Ross Girshick, Abhinav Gupta, Kaiming He (CMU, FAIR)

0.简述

convolution和recurrent都是对局部区域进行的操作，所以它们是典型的local operations。受计算机视觉中经典的非局部均值（non-local means）的启发，本文提出一种non-local operations用于捕获长距离依赖（long-range dependencies），即如何建立图像上两个有一定距离的像素之间的联系，如何建立视频里两帧的联系，如何建立一段话中不同词的联系等。
non-local operations在计算某个位置的响应时，是考虑所有位置features的加权——所有位置可以是空间的，时间的，时空的。这个结构可以被插入到很多计算机视觉结构中，在视频分类的任务上，non-local模型在Kinetics和Charades上都达到了最好的结果。在图像识别的任务上，non-local模型提高了COCO上物体检测／物体分割／姿态估计等任务的结果。

1. Non-local Neural Networks

1.1 定义

按照非局部均值的定义，我们定义在深度神经网络中的non-local操作如下：
这里写图片描述

其中x表示输入信号（图片，序列，视频等，也可能是它们的features），y表示输出信号，其size和x相同。 $f(x_i,x_j)$ 用来计算i和所有可能关联的位置j之间pairwise的关系，这个关系可以是比如i和j的位置距离越远，f值越小，表示j位置对i影响越小。 $g(x_j)$ 用于计算输入信号在j位置的特征值。C(x)是归一化参数。

从上式中可以看出任意位置上的j，可以是时间的、空间的、时空的任意位置，都可以影响到i的输出值。作为对比，conv的操作是对一个局部邻域内的特征值进行加权求和，比如kernel size=3时， $i-1 \le j \le i+1$ 。 recurrent的操作则是i时刻的值仅基于当前时刻或前一时刻（j=i or i-1）。

另外作为对比，non-local的操作也和fc层不同。公式(1)计算的输出值受到输入值之间的关系的影响（因为要计算pairwise function），而fc则使用学习到的权重计算输入到输出的映射，在fc中 $x_j$ 和 $x_i$ 的关系是不会影响到输出的，这一定程度上损失了位置的相关性。另外，non-local能够接受任意size的输入，并且得到的输出保持和输入size一致。而fc层则只能有固定大小的输入输出。

non-local是一个很灵活的building block，它可以很容易地和conv、recurrent层一起使用，它可以被插入到dnn的浅层位置，不像fc通常要在网络的最后使用。这使得我们可以通过结合non-local以及local的信息构造出更丰富的结构。

1.2 表示形式

接下来我们会讨论f和g的几种形式。有意思的是我们的实验显示不同的表现形式其实对non-local的结果并没有太大影响，表明non-local这个行为才是主要的提升因素。
为了简化，我们只考虑g是线性的情况，即 $g(x_j)=W_gx_j$ ，其中 $W_g$ 是一个可学的权重矩阵，实际中是通过空间域的1*1 conv或时空域的1*1*1 conv实现的。
接下来我们讨论f的不同形式。