论文解读1-LiteFlowNet3: Resolving Correspondence Ambiguity for More Accurate Optical Flow Estimation

paper链接:http://www.ecva.net/papers/eccv_2020/papers_ECCV/papers/123650171.pdf

github链接:https://github.com/twhui/LiteFlowNet3

liteflownet2链接:https://github.com/twhui/LiteFlowNet

该工程是用caffe实现的,https://github.com/twhui/LiteFlowNet3仅提供inference的部分和网络的prototxt和训练好的模型, caffe工程与https://github.com/twhui/LiteFlowNet一致,需要训练的两者进行结合

目前在光流估计算法中,Cost Volume和Coarse-to-Fine策略被大量的算法和实验验证是work的。然而当图像存在遮挡(假设ref和src两图像,要估计的是ref->src的光流,某些区域是在ref可见,但是在src由于前后遮挡关系是不可见,这些区域称之为遮挡区域)和homogeneous regions(中文翻译为同质区域,个人理解是无纹理/重复纹理区域)的时候,构建的Cost Volume会存在一些outliers,如果单纯想靠conv去解决这些outliers,在理论上是行不通的。另外,Coarse-to-Fine的策略在非最高层需要一个比较精确的初始值,然而上述的这些outliers,会使得Coarse层产生错误的光流估计值,这个会严重影响后面Fine层的光流估计。该篇论文主要是为了解决上述两个问题,提出了以下几个模块:

  • 文章主要贡献
    • 提出自适应调节修改cost vector来改善Cost Volume中outliers的问题,个人直观上的理解是自适应调节的参数代表着该区域是否是遮挡/同质区域,从而将outliers分辨出来,如果是outliers,则选取周围置信度高的cost来代替该像素的cost
    • 提出Flow Field Deformation来为Coarse-to-Fine的策略提供比较精确的初始值,它的一个假设是某个像素与它周围像素的光流是一致的/较为接近的,做法是某个像素置信度较低时,去寻找周围置信度较高的光流去代替
  • 论文框架

Cost volume是通过:这个公式获取到的,D为最大匹配半径,x'需要满足

  • Cost Volume Modulation

该模块主要作用是去修改Cost Volume去解决Cost Volume中的outliers的问题。如上图所示,(a)通过Modulation Parameter Generator生成\alpha, \beta参数; (b)与其他光流算法构建Cost Volume类似构建出C,根据(a)步骤生成的\alpha, \beta去修改C得到C_m, 修改公式如下C_m = C \bigotimes \alpha \bigoplus \beta, 其中\bigotimes表示element-wise multiplication,\bigoplus表示element-wise addition。

个人理解该模块如何能够改善Cost Volume中outliers的问题:

该模块的输入是confidence map, feature from I1以及cost volume. 通过cost volume和F1信息直观上理解足够获得该像素是否在遮挡/同质区域,是否是遮挡/同质区域的输出形式是在参数\alpha上(如果该像素是在遮挡/同质区域上的时候,它本身的cost vector其实是不可靠的,而通过上述的公式来看,参数\alpha主要是去看本像素的被留下来的比例),当然confidence map的输入应该也有助于判断是否是遮挡/同质区域(如果是在遮挡/同质区域中,获取得到的confidence应该不高(对于大部分是成立的),当然根据论文中confidence map的label的获取,也有一定的遮挡/同质区域能够获得高的置信度);而在贡献中,本人提到如果是遮挡/同质区域时,会选取周围的cost vector来代替,那么这个如何去实现呢,个人的推测是:判断出是在遮挡/同质区域之后,可去寻找该像素周围置信度较高的cost vectors,组合成新的一个cost vector作为该像素的cost vector,输出形式表现在参数\beta上。

上述所提到的confidence map(在每个level估计光流的上一层时候,接一个conv + sigmoid获取得到),label通过以下公式获取:

,使用L2 Loss

论文对比在cost volume构建的三种方式上的性能表现:

(a)为最简单的方式,不去对C进行任何改动; (b)将上一层获取得到的光流进行upsample和F1以及C进行concat; (c)就是上述所进行修改的Cm。

论文上图的(b)其实画得有些问题,PWC-Net原文的网络结构为:

以及PWC-Net针对Optical flow Estimator模块的输入描述如下:

上述三者Cost形式对比如下,可以看出该模块还是有较大的性能提升:

  • Flow Field Desformation

该模块主要解决的就是上述贡献点2的问题,分为两个步骤,(a)通过Displacement Field Generator获取得到每个像素应该保留本身还是应该选取周围哪一个像素的像素偏移值(例如该像素是u0, 但是假设这个光流不精确,需要周围u1像素的光流代替,则该模块输出的是u1-u0);(b)通过(a)获取得到的displacement进行warping, 公式如下:.

注意:该correlation与上面Cost Volume Modulation的不一样, 注意到进行correlation的两个特征都是F1, 所以Ca主要是为了去构建F1每个像素和周围像素的相似程度的Cost Volume.

由于confidence较高的像素其实是不需要去替换其光流的,所以为了加这一约束,将confidence map和Ca concat在一起作为输入去估计displacement field.

  • 实验结果

注意:实验部分建议仔细看源论文,在此仅仅贴一些重要的结果

  • 2
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值