摘要
真实世界,非固定相机情况下,图像的稠密光流GroundTruths是不可得的,这是因为注释是非直观的,即标注是float类型的向量
摘要针对光流深度网络的训练,提出了一种无监督的光流地面真实感生成算法
该算法从视频中的图像对中提取并匹配感兴趣的对象,寻找初始约束条件,在感兴趣的物体上施加as-rigid-as-possible的变形以获得稠密的流场。
通过使用流场对第一帧中的对象进行翘曲,实现了地面真值的正确性。(需要第一帧的标注?类似视频目标分割?)
我们将该算法应用于DAVIS数据集,利用GT或预测分割,获得真实物体非刚体运动的光流GT。
我们讨论了几种增加数据集中光流变化的方法。
大量的实验结果表明,非刚体真实运动的训练与刚体综合数据的训练相比是有益的。
实验部分展示了所生成的训练数据用在深度网络FlowNet-S,PWC-Net,LiteFlowNet上所获得的效果
方法
没什么好解释的,非常简单的原理,图像分割,特征点匹配,形变获得光流GT
结果
对于早期的光流估计网络(纯用CNN学习推理)提升比较多,新出的比较少,感觉问题要么在于生成的gt质量不行,要么是新出网络学习到的规律更符合光流估计的规律,是不是non-rigid已经不重要了,从rigid到non-rigid迁移足够鲁棒
个人觉得,这种光流训练数据,使用sintel那样的使用渲染的结果计算得到的,会比这个更靠谱(精度足够高),如果要仿照真实世界,只要在RGB图像上进行图像处理获得带噪声的图像即可。