AnyFlow: Arbitrary Scale Optical Flow with Implicit Neural Representation

CVPR2023  Seoul National University

基于RAFT改进,可以输出任意尺度分辨率下的光流

LIIF:2021CVPR,由于计算机以离散2D像素数方式存储和显示图像特性,LIIF通过将图像坐标和坐标周围的2D深度特征作为输入,预测输出给定坐标下的RGB值,在离散2D与连续2D之间构建了桥梁,进而对图像进行分辨率调整,实现所谓的“无限放大”

Background

在光流估计时,场景几何和物体的运动的耦合,因此反问题估计运动很难,通常时假设局部领域一致性,并加入额外的先验来约束解空间,例如变分先验,平滑先验。但是在应用于真实场景时泛化性不好

基于深度学习的方法受限于采样和分辨率,目前的方法有的利用迭代细化更好的估计小的高速运动的物体,有的加入注意力机制解决大位移遮挡问题。但目前的方法在图像分辨率低的时候效果不佳

基于物理的光流:假设光照连续->平滑先验;噪声估计->变分先验。结果取决于与真实世界逼近效果

基于学习的光流:略

低分图得高分光流:用循环方法重建高分图像;coarse-to-fine+运动补偿->引入伪影

需要低分图的准确光流,否则resize的时候会失真

INR:LIIF(将图像建模为连续的函数,输出任意分辨率图像)

Motivation

目前算法图像处理为固定的分辨率,当分辨率低时效果不佳

Idea

将光流表示为基于坐标的连续函数:隐式神经表示INR(LIIF),在推理时可以获得任意希望尺度的光流,使得对任意几何形状和运动的小物体都能得到很好的结果

Method 

问题的定义:

给定两幅图像,得到任意希望尺度输出的光流估计结果,I为angflow的网络。

基于RAFT完成设计,由NIR上采样器+变形模块+动态查询组成

INR上采样器

利用LIIF完成光流表示,x是希望输出的2D坐标,z是从2D特征图M中在x位置处采样得到的特征向量

首先需要提取特征图M,使用GRU,M表示的是GRU的隐状态

在上层分辨率中的结果表示为低分辨率图中3×3块的组合,其权重O为,为了学习高频信号,添加了相对位置编码ψ。得到O为3 × 3 × n2-dimensional,3×3是权重,n是超参数,表示在高分辨率图中该点对应多大的块

为了得到希望的分辨率H0×W0,首先采样查询点xq,其坐标范围与M相同,由于单个查询点对应高分辨率中的n×n的块,因此采样点数H0/n×W0/n

多尺度特征变形

通过变形计算部分cost volume实现高分辨率的特征图。将1/2和1/4分辨率的特征图同1/8的组合计算cost volume。对图二的特征图利用上采样的光流变形为图1,将得到的特征图与图1的特征图拼接,卷积

上采样光流是通过INR采样器,而无需金字塔结构

使用PixelShuffle完成下采样

估计残差流时需要利用先验的结果,因此需要将上一步得到的光流+特征图输入,空间对齐时,对光流的结果下采样使用PixelShuffle,此外额外使用卷积对1/2和1/4分辨率的特征图操作,使其与M对齐

带区域编码的动态查询(搜索域)

在RAFT固定查询,r的大小固定,点与点的间隔固定为1px

动态查询。为了更好的泛化性,r变大,更适合大位移,r变小更适合小位移,因此将r也作为网络预测的输出,同残差流的估计,初始的r0为超参数,但保持点的采样数不变

区域编码.当ri更新,局部网格长度可能超越每条边上的样本数,使样本间隔大于1px,此时,固定的采样点会出现盲点,计算correlation时未使用。因此,增加辅助点,3×3的辅助区域,以原始点为中心。

使用了MLP编码学习每个辅助区域到单个相关值的映射,同时输入ri使得输出依靠于感受野。

训练:L1损失

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值