[深度学习论文笔记][CVPR 17 oral] Inverse Compositional Spatial Transformer Networks

[CVPR 17 oral] Inverse Compositional Spatial Transformer Networks

Chen-Hsuan Lin and Simon Lucey

from CMU

paper link

Intuition

这篇文章是针对Spatial Transformer Network进一步改进的工作。从研究领域来看,该工作是对增强深度网络之于输入图片空间不变性的研究。作者首先对这一领域的工作进行了简单的总结和分类。前人工作可大致分为两类:

  1. 一类是传统的通过训练数据扩展和在网络中使用max pooling等操作让网络容忍输入图片的空间变化;
  2. 第二种则是使用参数方法改变网络结构,消除数据的空间变化。STN是第一个使用较小计算代价来实现这一功能的尝试。

这篇文章提出的模型仍然遵循了STN的大致思路:通过网络预测得到一组与当前数据相关的仿射变换的参数,并使用这些参数对数据/特征进行形变操作,从而消除输入图像中物体各种各样的空间变化。

与STN相比,这篇文章提出的IC-STN模型有两点主要改进:

  1. 预测参数时借鉴了Inverse Compositional算法(Lucas & Kanade算法的变种)的思想,并不像STN一样通过侧支网络直接回归变换参数;
  2. IC-STN模型仅在网络最后的特征上进行形变操作,而STN则是在网络之中进行多步的形变操作。STN的做法会导致一种边缘效应(boundary effect)。

Method

1. IC-STN

在介绍网络结构之前,需要简单介绍下Lucas & Kanade(LK)算法和Inverse Compositional算法。LK算法是已经集成到OpenCV中的经典算法,目前有很多博客详细介绍了算法的计算过程。这里仅作概念和思路的介绍。LK算法是一个基于优化的算法,其的过程是将原图片 I 进行基于可学习参数 p 的形变,目的是得到与给定的模板图片 T 最为相近的结果。用能量函数描述即为,通过学习参数 p 来最小化以下式子:

minΔp||I(p+Δp)T(0)||22
  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 4
    评论
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值