原文:https://arxiv.org/pdf/2311.15241
源码:https://github.com/jwlee-vcl/CTRL-C.git
论文概述
论文主要探讨了基于单张图像的相机校准的问题,通过分析图像中由于透视投影导致的失真来推断相机的内外参数。传统方法通常通过检测图像中的线段来找到消失点和地平线,而CTRL-C采用Transformer架构,通过端到端的神经网络直接从图像和线段中估计相机参数。
主要贡献
-
Transformer架构的引入:论文利用了Transformer的自注意力机制,这种机制擅长捕捉图像中的长距离依赖关系,从而能够更好地理解图像的全局特征。
-
辅助任务的引入:为了提升相机参数预测的准确性,论文提出了一项线段分类的辅助任务,分类线段是垂直的还是水平的收敛线,这有助于网络更好地理解图像中的几何结构。
-
实验结果:通过在Google Street View和SUN360数据集上的实验,CTRL-C在多个评价指标上超越了之前的最先进方法,特别是在地平线估计的AUC(曲线下面积)上有显著提升。