RendNet: Unified 2D/3D Recognizer with Latent Space Rendering
RendNet: Unified 2D/3D Recognizer with Latent Space Rendering(使用潜在空间渲染的统一2D/3D识别器)
2022CVPR
摘要
矢量图形(VG)在我们的日常生活中无处不在,在工程、建筑、设计等领域有着广泛的应用。大多数现有方法的VG识别过程是先将VG渲染成栅格图形(RG),然后根据RG格式进行识别。但是,这种方法丢弃了几何图形的结构,失去了VG的高分辨率。最近,另一类算法被提出直接从原始VG格式进行识别。但它受到拓扑错误的影响,而拓扑错误可以通过RG渲染过滤掉。与其只看一种格式,不如同时使用VG和RG格式来避免这些缺点,这是一个很好的解决方案。
此外,我们认为VG-to-RG渲染过程是有效结合VG和RG信息的关键。通过指定如何将VG原语转换为RG像素的规则,渲染过程描述了VG和RG之间的交互和相关性。因此,我们提出了一种用于2D和3D场景识别的统一架构RendNet,它考虑了VG/RG表示,并通过结合VG -RG栅格化过程来利用它们的相互作用。实验表明,在不同的VG数据集上,RendNet可以在2D和3D目标识别任务上达到最先进的性能。
主要贡献:
- RendNet是一个2D/3D统一的矢量图形识别框架,它利用了矢量图形和光栅图形的优点。
- RendNet融合了渲染过程,有效地利用了RG和VG之间的交互。
- 在二维和三维数据集上分别对分类任务和目标检测任务进行了实验。实现了最先进的表现。
框架
结论
在本文中,我们提出了利用矢量图形和光栅图形来识别二维和三维物体的RendNet。我们还设计了一种新的隐空间绘制方法。各种2D和3D目标识别实验表明,与基线相比,RendNet具有更高的性能和效率。将来,我们可以集成更多的技术来进一步提高性能,比如在大型VG数据集上进行预训练。