【论文笔记】Non-local Neural Networks

论文链接:https://arxiv.org/abs/1711.07971

1.论文的目的

1.1. 背景
  • 捕获远程依赖关系(long-range dependencies在深度神经网络中至关重要。

  • 卷积和循环运算在空间或时间上处理局部邻域;因此,只有在重复应用这些操作、通过数据逐步传播信号时,才能捕获远程依赖关系。

  • 重复局部操作的限制:

    (1)计算低效
    (2)优化困难

    (3)使多跳依赖关系建模变得困难例如,当消息需要在遥远的位置之间来回传递时。

1.2.论文的方法
  • 论文提出非局部(non-local)操作作为一个通用的构建块家族来捕获远程依赖关系。

    在这里插入图片描述

    如图所示,非局部运算将一个位置上的响应计算为所有位置上特征的加权和。某一位置的响应是所有输入特征图中所有位置特征的加权平均值。

  • 优势

    (1)直接捕获远程依赖关系,而不考虑它们的位置距离;
    (2)高效
    (3)输入尺寸可变,易于其他操作结合

    (4)非局部神经网络在计算上比3D卷积网络更经济

2. 非局部(Non-local)神经网络

2.1. 公式

神经网络的通用非局部操作表示:

image-20211022155251380

i i i是输出位置(在空间、时间或时空)的索引,该位置的响应将被计算;

j j j 是列举所有可能位置的索引。

x x x 是输入信号(图像、序列、视频;通常为其特征),

y y y 是与 x x x 大小相同的输出信号。

函数 f f f 计算 i i i 和所有 j j j 之间的缩放(表示亲和力等关系)。

一元函数 g g g 计算位置 j j j 处输入信号的表示。响应由因子 C ( x ) C(x) C(x) 归一化。

  • 与卷积操作和循环操作的区别
    卷积操作只在局部邻域中对加权输入进行求和
    循环操作的时间i只与当前或最新时间步骤有关

  • 与全连接层的区别

    非局部操作使用不同位置的表示,输入尺寸可变,与输出尺寸一致;
    fc层使用的是学到的权重,输入尺寸固定,与输出尺寸不一致

2.2 实例
  • 函数 f f f 的选择

    • 高斯

      image-20211022160408403

      C ( x ) = ∑ ∀ j f ( x i , x j ) C(x)=\textstyle\sum_{\forall j}f(x_i,x_j) C(x)=jf(xi,xj)

    • 嵌入式高斯

      image-20211022160538625

      在这里插入图片描述

      C ( x ) = ∑ ∀ j f ( x i , x j ) C(x)=\textstyle\sum_{\forall j}f(x_i,x_j) C(x)=jf(xi,xj)

    • 点积

      image-20211022160801582

      C ( x ) = N C(x)=N C(x)=N ,其中 N N N x x x位置的数量

      点积与嵌入式高斯的不同之处为softmax的表示

    • 聚合

      image-20211022161514691

      C ( x ) = N C(x)=N C(x)=N ,其中 N N N x x x位置的数量

2.3.非局部块

image-20211022161751198

这样的残差连接允许非局部块在不打破其他模型的初始化前提下插入任意的预训练模型中

在这里插入图片描述

softmax操作作用在每一行。

对于时空而言,一行有THW个点,每一行就表示某一点与其他点的关系。

3.实验

3.1. 视频任务

(1)不同 f函数的效果

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-VIpUq5rn-1634891977110)(https://i.loli.net/2021/10/22/BrwFAEXnHkhm6jU.png)]

以ResNet-50为backbone,本文提出的四张成对函数相比baseline都有很好的提升

(2)添加non-localblock的stage

在这里插入图片描述

以ResNet-50为backbone,将non-local块插入到哪一个阶段,一个non-local块在res2、res3或res4的提升效果是相似的,而对res5的提升稍微小一些。

(3)与SOTA视频分类网络对比
在这里插入图片描述

本文的方法远远超过了所有现有的基于RGB或RGB +流的方法,且与2017年分类比赛冠军模型结果不相上下。

3.2. 图像任务

(1)目标检测和实例分割

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-vLQ93APt-1634891977113)(https://i.loli.net/2021/10/22/YzyjQdpBIsWDER5.jpg)]

一个单独的non-local block超越了了所有的R50/101和X152baseline,包括检测和分割的所有指标。APbox在所有情况下增加约一个点。

(2)关键点检测

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-DOaDktyE-1634891977114)(https://i.loli.net/2021/10/22/CXTuk5Gng1yxfQ7.png)]

在Mask R-CNN中,测试non-local对于关键点检测的提升,在R101的baseline上,在头部添加4个non-local block会导致让 AP增加一个约一个点。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值