论文笔记-Position-Aware Recalibration Module: Learning From Feature Semantics and Feature Position

  • 论文信息

    • 标题:Position-Aware Recalibration Module: Learning From Feature Semantics and Feature Position
    • 作者:Xu Ma , Song
    • 机构:University of North Texas
    • 出处:IJCAI 2020
  • 代码链接

    • https://github.com/13952522076/PRM
  • 论文主要贡献

    • 实验结果显示,计算特征图和最具表达力的键-查询操作中的查询点之间的相关性具有实际可用的价值,为了进一步减少计算参数和 FLOPS,本文通过利用处理正则化统计数据的方式处理这些相关关系
    • 在学习过程中引入相对位置信息,极大辅助计算机视觉系统
    • 为了平衡精度和计算开销,本文设计实现了多头 PRM 并以成组的方式进行操作,这使得达到更优 PRM 精度的同时只增加少量参数
  • 论文要点翻译

    • 摘要
      • 本文提出了新的用于改进 CNN 表示能力的方法,通过研究典型的图像处理算法和最近的 CNN 方法,本文提出使用位置信息辅助 CNN 探索更加有效的特征相关信息
      • 之前的方法仅仅考虑特征的语义信息,本文则不同,本文将空间位置信息作为语义特征的增强信息,辅助加强特征设计
      • 本文提出位置敏感的特征重整合模块(PRM),结合位置信息与原有的特征语义信息重新对特征进行整合,此外,受到多头注意力机制的启发,模型实现时得到多种不同的重整合结果最终将这些结果拼接作为输出
      • PRM 的实现是高效、方便的,可以无缝集成到现有的各种基础网络架构中,应用到许多基于位置的视觉任务中,和原始的 CNN 相比,提出的 PRM 模块具有更低的参数量,使得其性能得到提升
      • 在 ImageNet 和 MS COCO 数据集上的实验结果表明,方法在降低计算开销的同时有效超过了相似方法的性能,例如在 ImageNet 2012 的结果中,模型对 Resnet-50 改进了 1.75%,在 MS COCO 数据集上则改进了 1.5%-1.9% 的 mAP
    • 引言
      • 人类在看一个场景的时候会同时看到物体和它周围的环境,通过分析目标的表示和周围环境的上下文信息,人类可以获取和推理物体的相关视觉概念;在计算机视觉中,这样的属性通常是利用特征图中的特征相关和依赖进行获取的,但是直接在整个图像上寻找每个像素的以来关系会极大加大计算开销,使得这类方法难以集成到基础的 CNN 网络模块中,此外,这样的方法考虑了许多无用甚至是副作用的像素信息,使得模型运行效率较低
      • 为了有效减缓这些问题,研究者提出通过更紧凑的方法学习特征的相关关系,这些方法包括:具体查询操作和无关查询操作在保持相当性能的同时有效降低计算开销,这个设计可以用于大量的计算机视觉任务,但是也存在其不足之处:该信息缺少图像中的空间位置信息,即使破坏了特征图的空间位置,对于具体查询或者无关查询操作来说也不会有变化
      • 虽然现有的 CNN 网络大多没有涉及对位置信息的探索,但是最近文献研究中也有许多对于位置信息,例如机器翻译领域的 Transformer 网络,其中的全连接网络对每个位置分别独立地以相同的方式去探索自注意力机制中的位置属性;最近的 LRN 网络则通过使用小的子网络考虑几何先验信息,最终用于图像识别任务,但是 LRN 难以实现,因为和许多深度学习框架不兼容,本文注意到 CNN 可以从 zero-padding 中隐式地学习位置信息,但是这个简单的操作比起直接学习位置信息来说还有所欠缺
      • 本文重点强调特征的位置信息是许多视觉任务中的关键属性,是对原有的语义特征的有效补充,本文提出了新的轻量的模块有效组合两类特征信息,为了保证网络能够有效建立特征表示,本文对具有判别性的特征计算相似性和相对位置,将这些信息组合后对原有的特征图进行重整合
    • 相关工作
      • 位置编码:探索图像中的像素的几何信息和位置距离信息,基于一对像素的距离编码器空间上的依赖关系,最近的自然语言处理技术利用位置嵌入探索词语之间的依赖关系,而位置编码也在视觉处理领域收到广泛关注,比如 AANet 在自注意力机制中引入位置信息,也有工作通过探索空间距离去增强特征表示能力,虽然位置编码信息给太近了特征表示能力,但是滑动窗口本身的局限和受限的小范围感受野使得这类方法难以学习到全局的几何依赖,和这些方法不同,本文编码的是选择的像素和全局特征图之间的相对位置关系
      • 自注意力机制:自注意力机制一开始是在机器翻译中引入来解决全局的依赖问题的,对于句子的每个位置,自注意力模块根据映射空间内的全局上下文计算加权的响应,但是,遍历所有点得到全局的相关关系计算开销较大,因此 Global Context 利用查询无关的形式化表示,在保持原有性能的同时极大减小了计算开销,受到该工作启发,本文通过计算整个特征图和最具特征性的特征之间的相似性,进一步通过多头注意力机制的设计,计算组内的相关依赖,将最终的结果拼接为输出
      • 正则化:正则已经成为现代 SOTA 深度学习模型中不可或缺的一部分,为了减缓深度神经网络中的分布差异,BN 被引入将每个卷积层的输出进行尺度调整和偏移调整,但是 BN 的性能受到批量大小的影响,通常在目标检测和分割网络中会遇到小批量 BN 带来性能下降的问题,因此也有许多方法提出改进的正则层用于减缓这个问题,本文使用正则统计信息处理获取的特征相关
    • 方法
      • 本文提出了位置敏感的重整合模块 PRM,输入和输出是特征图 x ∈ R C × H × W \mathtt x \in \mathbb{R}^{C \times H \times W} xRC×H×W y ∈ R C × H × W \mathtt y \in \mathbb R^{C \times H \times W} yRC×H×W,其中的 C 是通道数, H × W H \times W H×W 是空间分辨率
      • 受到自注意力机制的启发,本文对每个 key-query 对考虑特征依赖,计算每对 key-query 的关系是计算密集的,为了提高效率,本文只是计算特征图 x \mathtt x x 和最具表达力的查询点 q ∈ R C q \in \mathbb R^C qRC 之间的关系,选择 q q q 的过程根据 x x x 中的每个位置的通道维度的最大均值确定,然后利用相对几何位置的编码信息重新调整相关依赖的权重,以此只选择最具判别行的点,因此,可能不足以表示整个特征图,为此,本文还计算特征图 x \mathtt x x 和全局上下文 z ∈ R C z \in \mathbb R^C zRC 之间的相关依赖,z 是通过全局平均池化获取的,并在 PRM 中使用这个信息
      • PRM 可以形式化为 y = s i g m o i d ( N ( S ) ) ⨂ x \mathtt y = sigmoid(\mathcal N(\mathtt S)) \bigotimes \mathtt x y=sigmoid(N(S))x 使得 S = α ϕ ( x , q ) ∗ D + β ϕ ( x , z ) , D = f p ( ∣ p x − p q ∣ ) \mathtt S=\alpha \phi(\mathtt x,q)*\mathtt D+\beta\phi(\mathtt x,z),\mathtt D=f_p(|p_x-p_q|) S=αϕ(x,q)D+βϕ(x,z),D=fp(pxpq),其中的 ϕ ( ⋅ ) \phi(\cdot) ϕ() 表示相似性函数, α , β \alpha,\beta α,β 表示在和最具判别性的点以及和全局上下文两类依赖之间的权重平衡, p x ∈ R 2 × H × W p_x\in \mathbb R^{2 \times H \times W} pxR2×H×W p q ∈ R 2 × 1 × 1 p_q \in \mathbb R ^{2 \times 1 \times 1} pqR2×1×1 表示特征图 x 和每个查询点 q 之间的位置 index, f p ( ⋅ ) f_p(\cdot) fp() 是相对几何位置编码函数,函数 N \mathcal N N 表示相似性正则, ⨂ \bigotimes 表示矩阵元素乘
      • 为了便于计算,像素点 x 和查询点 q 之间的相对几何位置关系通过绝对值距离 ∣ p x − p q ∣ |p_x-p_q| pxpq 进行计算
      • 相似性函数
        • 本文通过相似性函数 ϕ ( x , q ) \phi(x,q) ϕ(x,q) 建立特征图 x 和查询点 q(或者全局上下文 z)之间的相关依赖
        • 余弦相似性: ϕ ( x i , q ) = x i ⊤ q max ⁡ ( ∥ x i ∥ 2 ∗ ∥ q ∥ 2 ) , ϵ \phi(x_i,q)=\frac{\mathtt x_i^\top q}{\max(\|\mathtt x_i\|_2*\|q\|_2),\epsilon} ϕ(xi,q)=max(xi2q2),ϵxiq
        • L1 相似性: ϕ ( x i , q ) = ∑ c = 1 C ′ − ∣ x i c − q c ∣ \phi(x_i,q)=\sum_{c=1}^{C^{'}}-|\mathtt x_i^{c}-q^c| ϕ(xi,q)=c=1Cxicqc
        • 点积相似性: ϕ ( x i , q ) = x i ⊤ q \phi(x_i,q)=\mathtt x_i^\top q ϕ(xi,q)=xiq
        • 以上相似性函数实际上对性能影响不大,说明提出的 PRM 有较强的鲁棒性,本文实验中没有特别说明默认选择点积相似性
      • 位置编码
        • 除了语义特征之外,另一个有效表示信息的属性是特征的位置,但是这一信息在许多网络中都被忽略了
        • 为了研究特征位置的固有属性,本文首先计算点对之间的相对位置,也就是所有的特征图 x \mathtt x x 中的 key 点和 query 点,形成相对位置图 D ∈ R 2 × H × W \mathtt D\in \mathbb R^{2 \times H \times W} DR2×H×W,对于每个 key-query 对,其中的距离表示为 D i = ∣ p x i − p q ∣ D_i = |p_{\mathtt x_i}-p_q| Di=pxipq,其中的 p p p 表示几何位置 ( x , y ) (x,y) (x,y)
        • 将该位置图在新的嵌入空间进行表示,本文使用概率密度函数对位置信息进行编码,将转换函数 f p ( ∣ p x − p q ∣ ) = 1 d 2 π e − 1 2 ( θ ∣ p x − p q ∣ d ) 2 f_p(|p_{\mathtt x}-p_q|)=\frac{1}{d\sqrt{2\pi}}e^{-\frac12(\frac{\theta|p_{\mathtt x}-p_q|}{d})^2} fp(pxpq)=d2π 1e21(dθpxpq)2 用于编码位置,其中的 θ ∈ R 2 \theta \in \mathbb R^2 θR2 是可学习的参数用于调整尺度,标量 d 是高斯分布的密度控制参数,该设计可实现性强,易于训练,编码的相对几何位置可以通过乘积的方式和相关 ϕ ( x i , q ) \phi(\mathtt x_i,q) ϕ(xi,q) 进行结合
      • 语义正则
        • 假设相似性图为 S ∈ R H × W \mathtt S \in \mathbb R ^{H \times W} SRH×W ,其均值和标准差分别为 μ = 1 H W ∑ i = 1 H W S i , σ = ( 1 H W ∑ i = 1 H W ( S i − μ ) 2 ) 1 2 \mu=\frac{1}{HW}\sum_{i=1}^{HW}\mathtt S_i,\sigma=(\frac{1}{HW}\sum_{i=1}^{HW}(\mathtt S_i-\mu)^2)^{\frac12} μ=HW1i=1HWSi,σ=(HW1i=1HW(Siμ)2)21
        • 对 S 空间维度的正则化: S = f s ( S ) = S − μ σ + ϵ \mathtt S=f_s(\mathtt S)=\frac{\mathtt S - \mu}{\sigma + \epsilon} S=fs(S)=σ+ϵSμ ϵ = 1 e − 5 \epsilon=1e^{-5} ϵ=1e5 是为了数值稳定
        • 结合仿射变换得到最终的结果: S = λ S + ξ \mathtt S=\lambda \mathtt S+\xi S=λS+ξ
      • 重整合
        • S \mathtt S S 调整尺度,利用 sigmoid 函数变换到 ( 0 , 1 ) (0,1) (0,1),重新将输入 x \mathtt x x 使用矩阵元素乘进行重整合
      • 多头 PRM
        • PRM 学习整个 key 图和选择的 query 点之间的相关依赖,本文注意到查询整个特征图和特定的一个点是高效的,因此,性能的折衷得以实现。本节在整个 query 图和特定的 query 点之间进行 Gap 的缩小
        • 多头注意力机制在机器翻译和图像识别中已经成功运用,本文将多头注意力机制扩展到 PRM 中,头的数量表示为 g,将输入的特征图 x 分为 g 组,即 x = [ x 1 , x 2 , . . . , x g ] \mathtt x=[x_1,x_2,...,x_g] x=[x1,x2,...,xg],每个组 x g ∈ R C g × H × W x_g \in \mathbb R^{\frac Cg \times H \times W} xgRgC×H×W ,进行前述的 PRM 操作后,将每个组的输出拼接为最后重整的结果,假设 PRM 中有 g 个图,则参数的数量线性增长 g 倍,比起基本网络来说几乎可以忽略
        • 本文设置的实验参数中,g 值默认为 64
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值