一、背景与目标
3D-Fauna 是一款用于基于图像和视频进行四足动物3D重建与生成的开源方案。自然界展示了复杂的相似性与多样性,该方法通过学习来自网上图片的四足动物的3D形态,能够从单张图片生成可动画化的带有纹理的3D网格模型。其最终目标是通过大量扩展现有的解决方案,实现对地球上所有动物的3D建模。
二、核心技术概述
1. 基于机器学习的3D重建框架
3D-Fauna是一个用于从图片中重建四足动物的3D模型的机器学习框架。该方法利用了预训练的无监督图像特征提取技术(如DINO)和自动学习的基础3D形状库,专门针对四足动物的形态进行学习。整个过程从零开始,不依赖任何种类标签、形状模型或关键点注释。
2. 训练过程与无监督特征
- 训练数据:模型通过对来自互联网的2D图片进行训练。
- 无监督学习策略:采用了仅基于RGB图像重建损失、DINO特征和实例掩码的无监督学习策略。
- 基准形状学习:能自动学习一组基准形状,并在推理阶段,通过单张图片生成具有可动画化的三维网格。 </