作者:廖康,北京交通大学信息科学研究所
校对:梦佳
智源导读:近年来,深度学习在各种计算机视觉任务上都取得了重大的突破,其中一个重要因素就是其强大的非线性表示能力,能够理解图像更深层次的信息。本文针对CV+Deep Learning未来的走向进行了展望,其中包括CV与Learning之间的关系、CV面向不同场景以及Learning面向不同场景等多方面的延展。(本文系智源社区成员投稿)
01
「Learning-based CV」to 「CV-based Learning」
得益于神经网络较强的学习能力,很多视觉任务都被丢入一个黑盒中,然而神经网络直接从像素上对场景进行感知是不够的。对于具体的任务,我们需要利用CV中的原理和技术点对其进行解剖和建模,然后再利用深度学习中的网络架构/工具进行相应的特征提取与任务决策。
这里举个例子,CV中有一个很具有挑战性的任务是3D from Monocular Vision,即从单目图像进行三维重建与感知。目前很多方案都是通过强监督学习方式直接对深度信息进行预测或者直接在2D图像上进行3D任务。
在计算机视觉中,我们知道,从三维世界坐标系到二维相机坐标系是经过了一个透视变换的,因此不同深度的物体才被投影到了同一个平