【论文阅读】Non-local Neural Networks_nolocal cnn 何凯明-CSDN博客

本文链接：https://blog.csdn.net/u013859301/article/details/80167758

Non-local Neural Networks

Non-local Neural Networks是何凯明大佬组最近发表的一篇文章。一作Xiaolong Wang，本科毕业于华南农业大学，研究生是中山大学，博士去了CMU，然后做出了这么好的工作，可以说非常励志了。

类似于Batch Normalization，这篇文章也提出了一种不改变输入输出大小的层，可以直接集成到现有的网络结构中。思想非常简单，却在各大数据集上都取得了良好的效果。

简介

捕捉大范围内数据相互之间的依赖关系是一个很重要的问题。对于序列化的数据，比如语音、视频等等，使用循环神经网络一直是比较主流的做法。对于图片来说，我们通常使用较大的卷积核来捕捉较远距离的像素之间的关系。

然而，循环神经网络或者传统的卷积神经网络都只是在其时间或空间的很小的邻域内进行捕捉，却很难捕获到更远的位置的数据的依赖关系。

这篇论文中，作者提出了一种Non-local层，可以很好地捕捉到较远位置的像素点之间的依赖关系。Non-local mean其实是一种传统计算机视觉方法。作者将其扩展到了神经网络中。
这里写图片描述

上图是该层训练后的一个效果图。箭头指向的点就是算法认为和箭尾的点关联度最高的一些点。可以看出，对于视频分类任务，人物的动作、球的位置等点的信息之间是有依赖关系的，而这种依赖关系被Non-local层很好的捕捉到了。

算法简介

Non-local的思想十分简单。以一个视频片段为例，假设我们要考虑的某一个帧中的某一个点为 $x_i$ ，该视频片段里所有的像素点为 $x_j$ 。non-local的最终输出为:

y i = 1 C ( x ) \sum \forall j f (x i, x j) g (x j)

$y_i=\frac{1}{C(x)}\sum \limits_{\forall j}f(x_i,x_j)g(x_j)$

这里的 $f(x_i, x_j)$ 可以看作是两点之间的关联系数， $g(x_j)$ 可以看作是 $x_j$ 点中包含的信息。即以 $f$ 为权重，将信息 $g$ 进行加权求和。 $C(x)$ 为其归一化系数。

到这里已经介绍完了Non-local的最重要的思想。接下来就是确定 $f$ 和 $g$ 的形式了。文章中列举了几种不同的 $f$ 。

实例

$g$ 可以直接用一个线性函数来编码，即

g (x j) = W g x j

$g(x_j)=W_g x_j$
实现时只要应用

1×1 1 × 1 $1\times 1$ 卷积核就可以解决。关键是

f f $f$ 的形式。下面列举几种。

函数	表达式
Gaussian	$f(x_i,x_j)=e^{x_i^T x_j}$ Embedded Gaussian $f(x_i,x_j)=e^{\theta(x_i)^T\phi(x_j)}$ Dot product $f(x_i,x_j)=\theta(x_i)^T\phi(x_j)$ Concatenation $f(x_i,x_j)=ReLU(w_f^T[\theta(x_i),\phi(x_j)])$ 不过论文也指出，最终的结果对于 $f$ 的选择并不敏感。 None-local块的实现 res的结构是一定要有的，所以在之前的 $y_i$ 算出来以后，我们最终的输出要满足： $z i = W z y i + x i$ $\mathbb z_i=W_z\mathbb y_i+\mathbb x_i$ 所以Non-local层的结构如图2所示。实现时，通道数先减半最后再还原，遵从了bottleneck的设计思想，降低了一半的计算量。同时， $\mathbb x_j$ 可以被降采样后的数据 $\hat{\mathbb x}_j$ 代替，从而进一步降低计算量。视频分类模型作者在介绍视频分类实验介绍之前，先介绍了视频分类的常用方法。由于我对这块儿不太熟悉，所以这部分内容也记录下来。 2D卷积基准（2D ConvNet baseline）这个网络是个咸鱼网络。因为要比较Non-local和I3D中时间序列的表现，所以构建这样一个基准网络。时间信息仅仅通过pooling来使用。膨胀3D卷积（Inflated 3D ConvNet）这里的膨胀指的是把卷积层膨胀成为3D的。使用2D卷积层初始化，然后再将每层缩放 $1/t$ 。要注意的是，3D卷积是非常消耗计算资源的，因此每隔两个res层才会使用一次3D卷积。提出I3D的人表示他们的方法要比CNN+LSTM方法好。 Non-local network 在C2D和I3D中加入Non-local块。实现细节网络现在imagenet上训练，然后使用视频微调。首先是数据，从视频中采样连续的64帧，再从这64帧中间隔取32帧作为数据集；空域上随机从[256,320]上截取一块224X224大小的区域。训练时，每个GPU上放8段视频，一次用8块GPU，也就是说一个minibatch是64个clips（再次说明了多卡的重要性）。然后就是常规设置了，迭代40万次。（抱歉，有卡真的是可以为所欲为的）值得注意的是他们在微调网络时激活了BN层，而ResNet训练时BN是关闭的。因为他们使用BN减少了过拟合。在Non-local layer中，只有在最后一个1X1X1层的后面使用了BN，并且将BN的初始化参数设为0，从而保证网络的初始行为和预训练的网络一样。 inference时，从一个视频里取10段分别做前向，再将结果做softmax后再取平均。在视频分类上的实验使用了Kinetics数据集和Charades数据集。 Kinetics数据集上的实验 Kinetics dataset包含了246K个训练视频和20k个验证视频，包含400种人的常见行为。图4说明加入NL之后的模型在整个训练过程中都力压没加过的。图1和图3说明模型学到了很多有意义的关联点。表2的信息量有点大。。。表2a对比了不同的 $f$ 对结果的影响。不管怎么选，只加一层Non-local都可以提高1个点。同时表格说明不同的 $f$ 对结果影响不大。因此，接下来的实验都选择了Gaussian，因为他们的输出落在0~1之间，便于可视化。表2b比较了在不同的位置添加Non-local层的影响。在res234添加的效果差不多，但在res5添加会有降低。一种可能的解释是越往后图越小，空间信息就越不明显。表2c比较了不同数量的Non-local的影响。越多越准。值得注意的是，五层Nonlocal的ResNet-50比ResNet100还要准，但参数数量和计算量都比ResNet100小，因此其效果的提升并不是仅仅通过加深网络实现的。另外，作者还尝试把Non-local换成普通的Res层，结果精度并没有提高，说明Non-Local的确是增强了网络的能力。表2d比较了Non-local用在时间、空间、时空上的结果。虽然都有提高，但是在时空上最好。表2e比较了加了Non-local的C2D和I3D的效果。这两种操作可以看成是将C2D扩展到时间维度的不同方法。可以看出Non-local使用的计算力和参数都更小，却取得了更高的精度。表2f比较了加了Non-local的I3D和I3D的效果。加了后效果更好了，说明Non-local可以是I3D的一种补充。表2g比较了不同序列长度对结果的影响。这次直接用了128帧做输入。由于输入增大，每个GPU上同时跑两个clips，因此冻结了batchnorm层。与2f相比，精度提高了。同时加入Non-local的网络在精度增长上也毫不逊色。表3比较了NL-I3D和现在在Kinetics数据集上的state-of-art方法的结果。在没有使用任何光流和声音信息的情况下，NL-I3D取得了和state-of-art相同的结果。在Charades数据集上的实验 Charades数据集每个视频都包含多个标签。因此使用Kinetics数据集训练好的模型做初始化，输出换成per-category sigmoid函数，即为每种类别训练一个2分类器。结果又双叒叕吊打了之前的方法。扩展：在COCO上的实验在Mask-RCNN的主干网络上添加NL层，就可以用在物体检测了。对比了Non-local和不加的结果，加了以后显著提高。同时在关键点检测上也取得了好的结果。结论不管什么任务，加了Non-local以后效果都显著提高，简直就是神经网络界的金坷垃。正所谓，非洲农业不发达，种地要有金坷垃。神经网络训不好，试试加上Non-local。作者希望以后Non-local可以成为以后神经网络设计的一个标准模块。确定要放弃本次机会？福利倒计时 : : 立减 ¥ 普通VIP年卡可用立即使用 DechaoMeng 关注关注 7 点赞踩 30 收藏觉得还不错? 一键收藏 1 评论复制链接分享到 QQ 分享到新浪微博扫一扫专栏目录 Non-local Neural Networks论文理解给时光以生命 02-05 1273 学习non-local block的原理和使用方法深度学习-Non-local Neural Networks非局部神经网络 ssshyeong的博客 11-27 9859 将非本地操作(Non-local Operation)作为一种高效、简单和通用的组件，用于使用深度神经网络捕获远程依赖关系。 1 条评论您还未登录，请先登录后发表或查看评论非局部注意力：NL论文笔记——Non-local Neural Networks qq_50001789的博客 06-25 1016 非局部注意力：NL论文笔记——Non-local Neural Networks 论文阅读：Non-local Neural Networks xiongxyowo的博客 03-22 335 内容简介这个网络是用来做息肉分割的(不过在思想上像SOD，这里的显著对象就可以认为是息肉) 主要的点在于提出了一堆比较新鲜的模块(LCA、GCM、ASM) LCA(Local Context Attention) 局部上下文注意力模块。长这样：所谓“局部”即对更容易出错的复杂区域(如边缘)进行学习。对于某个中间Encoder层的输出Prediction，将其放入一个公式计算： Attij=1−∣pi+1j−T∣max⁡(T,1−T) A t t_{i}^{j}=1-\frac{\left\|p_{i non_local论文阅读&代码 weixin_42699651的博客 05-07 1816 1.论文阅读 Non-local Neural Networks 1.问题来源 CNN中的 convolution单元每次只关注邻域 kernel size 的区域，就算后期感受野越来越大，终究还是局部区域的运算，这样就忽略了全局其他片区（比如很远的像素）对当前区域的贡献。 2.主要思想 non-local blocks 要做的是，捕获这种 long-range 关系：对于2D图像，就是图像... 论文分享[cvpr2018]Non-local Neural Networks非局部神经网络最新发布 qq_53536373的博客 05-08 882 将非局部操作作为通用构建块家族，用于捕获长距离依赖关系。受计算机视觉中经典的非局部均值方法的启发，我们的非局部操作将位置响应的计算为所有位置的特征的加权和。这个构建块可以插入到许多计算机视觉架构中。在视频分类任务中，即使没有任何花里胡哨（without any bells and whistles），我们的非局部模型也可以在 Kinetics 和 Charades 数据集上竞争或优于当前的竞赛获胜者。 Asymmetric Non-local Neural Networks soarflight_ing的博客 12-01 629 Asymmetric Non-local Neural Networks 论文：Asymmetric Non-local Neural Networks for Semantic Segmentation,ICCV,2019. 链接：paper 代码：github 本文是在Non-local Neural Networks（cvpr,2018) 这篇论文的基础上改进得来的，non-local block Non-local模块作为语义分割任务中很有用的技术，但因为计算量较大，需要较大的显存开销，这阻碍了行为识别论文笔记\|Non-local\|Non-local Neural Networks njuptalex的博客 12-07 538 行为识别论文笔记-Non-Local-Non-local Neural Networks Wang, Xiaolong, et al. “Non-local neural networks.” Proceedings of the IEEE conference on computer vision and pattern recognition. 2018. 引用数2000+ cmu(Wangxiaolong)和FAIR(HeKaiming) Motivation Conv and recurre 论文笔记：Non-Local Neural Network ArchibaldChain的博客 08-03 207 论文笔记：Non-Local Neural Network Abstract 卷积和循环操作都一次只在一个局部neighborhood上操作。受到传统计算机视觉中非局部中值计算的启发，作者决定使用此方法在深度学习上。公式通用公式： yi=1C(x)∑∀jf(xi,xj)g(xj) \mathbf{y}_{i}=\frac{1}{\mathcal{C}(\mathbf{x})} \sum_{\forall j} f\left(\mathbf{x}_{i}, \mathbf{x}_{j}\right) g Non-local Neural Networks 2017 论文笔记 phy12321的博客 04-25 475 卡内基梅隆大学 FaceBook AI Research 自己的想法：将经典计算机视觉中的non-local mean操作与自注意力统一起来, 这两种思想其实是有异曲同工之妙的。各种自注意力机制都是本文方法的特例，而本文的non-local 机制则是一种可泛化的基础网络模块，厉害。这里有篇讲解non-local mean思想的文章：https://www.jianshu.com/p/a9... non-local论文笔记 weixin_46460816的博客 05-23 513 https://openaccess.thecvf.com/content_cvpr_2018/papers/Wang_Non-Local_Neural_Networks_CVPR_2018_paper.pdf 1、创新点 1、问题：卷积运算和循环运算都是处理局部邻域的构造，DCNN是通过重复的卷积操作得到长距离的相关性。缺点是计算效率低，其次优化困难 2、本文提出非局部操作，将某个位置的响应计算为所有位置特征的加权和。目的是捕捉远距离的依赖关系。位置集可以是空间、时间、时空 no... 《Non-local Neural Networks》论文笔记 m_buddy的博客 07-19 714 参考代码：video-nonlocal-net 1. 概述导读：现有的CNN与RNN的网络都有很好的局部相关性（local），但是在一些任务中就需要网络具有较大的感受野范围，因而就需要一种non-local的表达形式来捕获较大范围的信息。这篇文章不同于之前的non-local的方法，它计算的是当前位置在全局中的加权和的形式。而且文章的结构是比较灵活的可以被移植到很多的网络结构中，或多或少地会带来性能的提升（其对于网络量化的影响就还需要进一步试验观察了），这篇文章的方法可以说是比较好的Attention方 Non-local Neural Networks qq_28778507的博客 05-23 5316 论文链接：论文一位大佬的博客：博客一般深度学习的各种操作都是local的，比如CNN，conv都是局部感受野，但其实全局的信息对于图像的任务更有价值，比如短视频分类任务等等，目前全局信息的使用就是FC，但是这会带来大量的参数。这篇文章提出了一个nonlocal的操作，他把position当成了一个权重，这里的position可以指空间，时间，或者时空关系，计算全局的关联性。eg视频中第一帧的A... 【NL】《Non-local Neural Networks》 bryant_meng 07-16 325 CVPR-2018 文章目录1 Background and Motivation2 Related Work3 Advantages / Contributions4 Non-local Neural Networks4.1 Formulation4.2 Instantiations4.3 Non local Block4.4 Video Classification Models5 Experiments5.1 Datasets5.2 Experiments on Kinetics (Video.. Non local means图像去噪算法及其实现热门推荐 lemonHe的博客 07-18 1万+ 论文原文：A non-local algorithm for image denoising 该文章2005由Buades等人发表在CVPR上，对于single-image denoise来说，当时基本上是state-of-the-art。去噪属于图像复原的范畴，通常使用滤波来实现，并且往往是低通（平滑噪声）滤波器。对于单帧图像去噪，使用空间邻域像素来处理，对于多帧图像去噪，则可以考虑时空域... Non-local Neural Networks 笔记 qq_24548569的博客 09-15 848 Non-local Neural Networks基于non-local means的思想捕获远程依赖，提高了视频分类和图片分类的分类精度。 Motivation 捕获远程依赖性在深度神经网络中至关重要。对于序列数据，捕获远程依赖的主要方法是循环操作（循环网络）。对于图片数据，捕获远程依赖的方法是使用一叠卷积层来获取大的接收域。卷积和循环操作都是处理局部的邻近区域（local neighb... 2018CVPR:Non-local Neural Networks（自注意力机制捕获远程依赖） qq_38109282的博客 10-23 2316 前言在阅读Coordination attention时了解到空间位置信息之间的远程依赖关系，经查询了解到ORDNET对短中远程依赖的提取，并对原始的自注意力机制进行了比较，指出原始的自注意力机制捕获的远程依赖特征的不精确性，因此来了解下自注意力机制论文的实现，再继续了解ORDNET会更深刻。论文下载链接： 2018CVPR:Non-local Neural Networks Abstract 卷积运算和recurrent运算都是一次处理一个局部邻域的构建块。在本文中，我们将非局部操作表示为一个通用的. non-local neural networks 03-17 非局部神经网络（non-local neural networks）是一种用来提高神经网络泛化能力的方法。它通过在网络中增加非局部块来捕捉输入数据中的非局部关系，使得网络能够学习到更加广泛的特征。这类网络最早被用于图像分类，... DechaoMeng CSDN认证博客专家 CSDN认证企业博客码龄11年暂无认证 30 原创 16万+ 周排名 129万+ 总排名 13万+ 访问等级 1721 积分 148 粉丝 134 获赞 66 评论 380 收藏私信关注热门文章重新理解函数空间(上) 14133 四旋翼动力学和仿真翻译（Quadcopter Dynamics and Simulation） 12095 在CLion中使用Qt 10190 OpenCV Java imshow()的实现 7756 Adaboost原理及简单的Python实现 7676 分类专栏 APM 4篇四旋翼 3篇 OpenCV 2篇 SLAM 2篇算法 3篇 Web Python 5篇机器学习 3篇 Robot 2篇吐槽 2篇 ROS 1篇论文阅读 3篇 CMake 1篇最新评论对C++的一点吐槽 Marchsis: 对呀，我也发现这个问题，不过没有作者这么深入。就是有什么好的想法先用matlab或者python把功能实现了，当成草稿纸，然后再用cpp“誊写”一遍，利于部署 Boustrophedon Cellular Decomposition的Python实现 l715725125: 请问有相关的MATLAB程序实现吗重新理解函数空间(上) moshan669: 博主给了参考文献，下半部分应该在这里：http://songcy.net/posts/story-of-basis-and-kernel-part-2/ 区域填充之扫描线种子法的Python实现 BoXiao0328: cv2.error: OpenCV(3.4.14) C:\Users\runneradmin\AppData\Local\Temp\pip-req-build-4a1pphpu\opencv\modules\imgproc\src\color.cpp:182: error: (-215:Assertion failed) !_src.empty() in function 'cv::cvtColor' 出现这种情况该怎么解决呀【APM】开发环境配置常驻客栈: 博主你的开发版是什么型号最新文章不要滥用OO 关于自律的一点感悟 Linux动态链接那点事儿（`cmake find_package，linux shared library`路径详解） 2019年1篇 2018年9篇 2017年1篇 2016年20篇目录目录分类专栏 APM 4篇四旋翼 3篇 OpenCV 2篇 SLAM 2篇算法 3篇 Web Python 5篇机器学习 3篇 Robot 2篇吐槽 2篇 ROS 1篇论文阅读 3篇 CMake 1篇目录评论 1 被折叠的条评论为什么被折叠? 到【灌水乐园】发言查看更多评论添加红包祝福语请填写红包祝福语或标题红包数量个红包个数最小为10个红包总金额元红包金额最低5元余额支付当前余额3.43元前往充值 > 需支付：10.00元成就一亿技术人! 领取后你会自动成为博主和红包主的粉丝规则 hope_wisdom 发出的红包实付元使用余额支付点击重新获取扫码支付钱包余额 0 抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。 2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。余额充值

函数

表达式

Gaussian

f (x_{i}, x_{j}) = e^{x_{i}^{T} x_{j}}

$f(x_i,x_j)=e^{x_i^T x_j}$ Embedded Gaussian

f(xi,xj)=eθ(xi)Tϕ(xj) f ( x i , x j ) = e θ ( x i ) T ϕ ( x j ) $f(x_i,x_j)=e^{\theta(x_i)^T\phi(x_j)}$ Dot product

f(xi,xj)=θ(xi)Tϕ(xj) f ( x i , x j ) = θ ( x i ) T ϕ ( x j ) $f(x_i,x_j)=\theta(x_i)^T\phi(x_j)$ Concatenation

f(xi,xj)=ReLU(wTf[θ(xi),ϕ(xj)]) f ( x i , x j ) = R e L U ( w f T [ θ ( x i ) , ϕ ( x j ) ] ) $f(x_i,x_j)=ReLU(w_f^T[\theta(x_i),\phi(x_j)])$

不过论文也指出，最终的结果对于 $f$ 的选择并不敏感。
这里写图片描述

None-local块的实现

res的结构是一定要有的，所以在之前的 $y_i$ 算出来以后，我们最终的输出要满足：

z i = W z y i + x i

$\mathbb z_i=W_z\mathbb y_i+\mathbb x_i$
这里写图片描述

所以Non-local层的结构如图2所示。

实现时，通道数先减半最后再还原，遵从了bottleneck的设计思想，降低了一半的计算量。同时， $\mathbb x_j$ 可以被降采样后的数据 $\hat{\mathbb x}_j$ 代替，从而进一步降低计算量。

视频分类模型

作者在介绍视频分类实验介绍之前，先介绍了视频分类的常用方法。由于我对这块儿不太熟悉，所以这部分内容也记录下来。

2D卷积基准（2D ConvNet baseline）

这个网络是个咸鱼网络。因为要比较Non-local和I3D中时间序列的表现，所以构建这样一个基准网络。时间信息仅仅通过pooling来使用。
膨胀3D卷积（Inflated 3D ConvNet）

这里的膨胀指的是把卷积层膨胀成为3D的。使用2D卷积层初始化，然后再将每层缩放 $1/t$ 。

要注意的是，3D卷积是非常消耗计算资源的，因此每隔两个res层才会使用一次3D卷积。提出I3D的人表示他们的方法要比CNN+LSTM方法好。
Non-local network

在C2D和I3D中加入Non-local块。

实现细节

网络现在imagenet上训练，然后使用视频微调。

首先是数据，从视频中采样连续的64帧，再从这64帧中间隔取32帧作为数据集；空域上随机从[256,320]上截取一块224X224大小的区域。训练时，每个GPU上放8段视频，一次用8块GPU，也就是说一个minibatch是64个clips（再次说明了多卡的重要性）。然后就是常规设置了，迭代40万次。（抱歉，有卡真的是可以为所欲为的）

值得注意的是他们在微调网络时激活了BN层，而ResNet训练时BN是关闭的。因为他们使用BN减少了过拟合。

在Non-local layer中，只有在最后一个1X1X1层的后面使用了BN，并且将BN的初始化参数设为0，从而保证网络的初始行为和预训练的网络一样。

inference时，从一个视频里取10段分别做前向，再将结果做softmax后再取平均。

在视频分类上的实验

这里写图片描述

使用了Kinetics数据集和Charades数据集。

Kinetics数据集上的实验

Kinetics dataset包含了246K个训练视频和20k个验证视频，包含400种人的常见行为。
这里写图片描述

图4说明加入NL之后的模型在整个训练过程中都力压没加过的。

图1和图3说明模型学到了很多有意义的关联点。
这里写图片描述

表2的信息量有点大。。。

表2a对比了不同的 $f$ 对结果的影响。不管怎么选，只加一层Non-local都可以提高1个点。同时表格说明不同的 $f$ 对结果影响不大。因此，接下来的实验都选择了Gaussian，因为他们的输出落在0~1之间，便于可视化。

表2b比较了在不同的位置添加Non-local层的影响。在res234添加的效果差不多，但在res5添加会有降低。一种可能的解释是越往后图越小，空间信息就越不明显。

表2c比较了不同数量的Non-local的影响。越多越准。值得注意的是，五层Nonlocal的ResNet-50比ResNet100还要准，但参数数量和计算量都比ResNet100小，因此其效果的提升并不是仅仅通过加深网络实现的。另外，作者还尝试把Non-local换成普通的Res层，结果精度并没有提高，说明Non-Local的确是增强了网络的能力。

表2d比较了Non-local用在时间、空间、时空上的结果。虽然都有提高，但是在时空上最好。

表2e比较了加了Non-local的C2D和I3D的效果。这两种操作可以看成是将C2D扩展到时间维度的不同方法。可以看出Non-local使用的计算力和参数都更小，却取得了更高的精度。

表2f比较了加了Non-local的I3D和I3D的效果。加了后效果更好了，说明Non-local可以是I3D的一种补充。

表2g比较了不同序列长度对结果的影响。这次直接用了128帧做输入。由于输入增大，每个GPU上同时跑两个clips，因此冻结了batchnorm层。与2f相比，精度提高了。同时加入Non-local的网络在精度增长上也毫不逊色。
这里写图片描述