2021 ICCV: Common Objects in 3D阅读笔记

最新推荐文章于 2022-09-09 11:06:34 发布

Agriser

最新推荐文章于 2022-09-09 11:06:34 发布

阅读量645

点赞数

分类专栏：论文阅读笔记文章标签：深度学习机器学习神经网络

本文链接：https://blog.csdn.net/Agriser/article/details/120781363

版权

《Common Objects in 3D: Large-Scale Learning and Evaluation of Real-life 3D Category Reconstruction》主要包括一个有标注的视频数据集和NerFormer。

摘要翻译：

传统的学习3D对象类别的方法主要是在合成数据集上进行训练和评估，因为无法获得真实的3D标注的以类别为中心的数据。我们的主要目标是通过收集与现有合成数据规模相似的真实数据，促进该领域的进展。因此，这项工作的主要贡献是一个大型数据集，称为3D中的普通对象，其中有对象类别的真实多视图图像，用相机姿态和地面真实3D点云标注。该数据集包含了从50个MS-COCO类别中捕获对象的近19,000个视频的总计150万帧，因此，它在类别和对象的数量上明显大于其他选择。

我们利用这个新的数据集对几种新视图合成和以类别为中心的3D重建方法进行了首次大规模的“野外”评估。最后，我们贡献了NerFormer——一种新颖的神经渲染方法，它利用强大的Transformer来重构给定少量视图的对象。

涉及NerFormer的Introduction翻译:

我们还提出了一个新的NerFormer模型，在给定少量输入源视图的情况下，它学习在我们的数据集中重建对象类别。 NerFormer基于机器学习和3D计算机视觉的两大主要方式：Transformers和神经隐式渲染。具体来说，给定一组沿绘制射线的3D点，从已知图像中采样特征并叠加到一个张量中。后者实际上是一组采样特征的射线深度有序序列，允许使用顺序到顺序的Transformer进行处理。因此，通过交替的特点池化attention层和光线attention层，NerFormer学会从源视图中联合地聚合特征，并在它们上面进行光线追踪。重要的是