点击蓝字
关注我们
AI TIME欢迎每一位AI爱好者的加入!
在深度学习革命之前,许多感知算法(perception algorithm) 直接运行时优化(runtime optimization) ,同时加上强的先验(prior) 或者正则化(regularization) 。计算机视觉中的一个典型例子是光流(optical flow) 和场景流(scene flow) 。
监督学习(supervised learning) 在很大程度上取代了显式正则化(explicit regularization) 的需要。相反地,它们依赖大量的标记数据来捕获先验统计(prior statistics) ,而对于许多问题来说,这些大量的数据并不总是很容易获得的。
因此,这些学习方法只能针对特定领域,却不能很好地推广到其他在数据分布上不同的场景。本文回顾了主要依赖于运行时优化和强正则化的场景流问题。
文章的创新点是使用神经网络的架构作为一种新型的隐式正则化器(implicit regularizer) ,来表达场景流。与基于学习的场景流方法不同,在我们的方法中,优化发生在运行时,所以,不需要离线数据集。这种运行时优化的方法使得我们的方法非常适合应用于在自动驾驶等不断有新数据但很难获得大量有标记的真实数据(labeled ground truth) 的环境中。
我们的方法在场景流benchmark中获得了具有竞争力的(如果不是更好的话)结果。此外,这种神经先验的隐式和连续场景流表达使得我们可以估计连续的一长段跨点云序列的密集对应关系(dense long term correspondences across a sequence of point clouds) 。
本期AI TIME PhD直播间,我们邀请到阿德莱德大学在读博士生——李雪倩,为我们带来报告分享《用神经网络来表达隐式场景流》。
李雪倩:
目前在Argo AI 实习,同时是阿德莱德大学在读博士生。我的导师是Dr. Simon Lucey。
Coordinate-based network
最近关于 3D view synthesis有很多令人兴奋的研究,也引起了很多关注。具有代表性的一个work就是Neural Radiance Field——NeRF,它是一项开创性的neural rendering的工作,它在真实数据集上也生成了很有竞争力的view synthesis的结果。
在这个work中,一个创新点就在于它是用coordinate-based networks去做连续的场景表达(continuous scene representation)的。这种coordinate-based networks还提供了一种从网络架构本身而不是从大量的数据中去获取prior knowledge的新方法。当我们没有关于数据分布的prior knowledge时,这个方法对于许多视觉问题是必不可少的。
比如,在我们的work中,我们探索了coordinate-based network在解决底层视觉问题场景流(scene flow)中的能力。据我们所知,这是第一个使用coordinate-based networks直接解决自动驾驶场景中大规模、真实数据的场景流问题的工作。
因为我们的work是关于场景流问题的,所以我么先简单介绍一下什么是场景流Scene flow。
因为我们的work是关于场景流问题的,