
MVSFormer论文阅读和代码分析
特征表示学习是实现基于学习的多视点立体视觉的关键。作为基于学习的MVS的通用特征提取器,普通特征金字塔网络(FPNs)在反射和无纹理区域存在特征表示不理想的问题,限制了MVS的泛化。即使FPNs与预训练的卷积神经网络(CNN)一起工作,也无法解决这些问题。另一方面,视觉Transformers(ViTs)在许多2D视觉任务中取得了显著的成功。那么,ViTs是否能够促进MVS中的特征学习呢?本文提出一种预训练的ViT增强MVS网络,称为MVSFormer,它可以从ViT中受益于信息先验学习更可靠的特征表示。




























