【ETHZ博士论文】真实世界约束下的2D和3D生成模型

53b403bf983538b1dd91b49fb1def281.png

来源:专知
本文约1000字,建议阅读5分钟
本论文重点解决二维和三维生成模型在真实世界约束下所面临的这些问题。

9ea6e5b5ec2dc433238b7d30ceacfa70.png

生成建模的最新进展正在改变视觉内容的创作,并在计算机视觉和图形学的多个应用中显示出巨大的前景。然而,生成模型在日常任务中的应用受到生成过程可控性、数据需求和计算要求等挑战的制约。本论文重点解决二维和三维生成模型在真实世界约束下所面临的这些问题。

首先,我们致力于通过迁移学习提高类别条件生成对抗网络(GAN)的数据效率。我们引入了一种新的类别特定迁移学习方法,称为cGANTransfer,基于类别之间的相关性,明确传播旧类别的知识到新类别。通过广泛的评估,我们证明了该方法在条件GAN迁移学习中的优越性,优于之前的方法。

其次,我们研究了使用小数据集训练类别条件GANs的问题。我们特别指出了在小数据集上训练条件GAN时出现的条件崩溃——即模式崩溃。为了解决这一问题,我们提出了一种基于过渡条件的训练策略,该策略通过额外利用无条件学习,有效地防止了观察到的模式崩溃。这种方法不仅实现了稳定的训练,还通过在训练的早期阶段利用类别间共享信息,生成了高质量的图像。

第三,我们解决了NeRF-GANs的计算效率问题。NeRF-GANs是一类基于神经辐射场(NeRFs)和GANs集成的3D感知生成模型,训练于单视图图像数据集上。具体而言,我们重新审视了姿态条件的二维GANs,以在推理阶段实现高效的3D感知生成。通过从预训练的NeRF-GANs中提取3D知识,我们提出了一种简单而有效的方法,用于高效推理3D感知GANs。该方法基于在姿态条件卷积网络中重用预训练的NeRF-GAN的良好解耦的潜在空间,以直接生成与底层3D表示一致的3D图像。

最后,我们解决了在3D场景中进行物体生成的新任务,而无需任何3D监督或用户提供的3D放置指导。我们引入了InseRF,这是一种在NeRF重建的3D场景中进行生成物体插入的新方法。基于用户提供的文本描述和参考视图中的二维边界框,InseRF能够在无需明确的3D信息作为输入的情况下,实现对3D场景中物体的可控且3D一致的插入。

11e6e41084a1d4e65a7cfc84f8374ff5.png

c41f7840144854e16d02bb5305c4bec0.png

bf096a783b1ace5d092eebf411967911.png

关于我们

数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。

9ca813c0c9dfc994feffd8fe49d2e402.png

新浪微博:@数据派THU

微信视频号:数据派THU

今日头条:数据派THU

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: 这里是 20 个比较流行的激光雷达 3D 点云模型的推荐: 1. Velodyne HDL-64E LIDAR 2. Riegl VUX-1UAV 3. SICK LMS111 4. Trimble LIDAR Scanning System 5. Leica Geosystems HDS6100 6. Faro Focus X130 7. Optech ILRIS 3D 8. Z+F LaserControl Scanner 9. RIEGL VMX-450 10. Trimble GX LIDAR 11. SICK LMS291 12. Velodyne VLP-16 13. Optech Lynx Mobile Mapper 14. Faro Gage 15. RIEGL VQ-820-G 16. Trimble SX10 17. SICK LMS200 18. Velodyne Puck LITE 19. Optech CZMIL 20. Faro Focus S 70 ### 回答2: 以下是20个比较流行的激光雷达3D点云模型: 1. KITTI Vision Benchmark Suite:该数据集提供了城市场景下的激光雷达点云数据和相关标注,可用于目标检测和分割等任务。 2. NuScenes:这是一个大规模自动驾驶数据集,包含了高质量的激光雷达点云和其他传感器数据。 3. SemanticKITTI:该数据集包含了从激光雷达采集的大规模城市场景点云数据,标注了不同物体的语义信息。 4. Waymo Open Dataset:该数据集由Waymo提供,包含了大量激光雷达点云和其他传感器数据,适用于自动驾驶研究。 5. TUM RGB-D 数据集:该数据集提供了RGB图像和激光雷达点云,可用于RGB-D感知和SLAM算法研究。 6. Stanford 3D Scanning Repository:该资源库提供了一系列不同场景的激光雷达点云数据,适用于3D重建和场景理解。 7. Velodyne SLAM Dataset and Benchmark:该数据集包含了Velodyne HDL-32E激光雷达与其他传感器采集的数据,用于SLAM算法评估。 8. ShapeNet:该数据集包含了大量3D模型,可以用于点云生成和分类等任务。 9. ModelNet:该数据集包含了12个类别的3D模型点云数据,适用于目标分类和识别。 10. Stanford Large-Scale 3D Indoor Spaces Dataset:该数据集提供了大规模室内场景的激光雷达点云数据,用于室内场景理解和导航研究。 11. Bosphorus 3D Face Database:该数据库提供了大量不同人脸的3D点云数据,适用于人脸识别和表情分析等任务。 12. ETHZ Shape Classes:该数据集包含了10个类别的3D模型点云数据,适用于3D形状识别和分类。 13. Stanford Cars Dataset:该数据集包含了大量不同类型汽车的3D模型点云数据,适用于车辆识别和分类。 14. The Ford Campus Vision and Lidar Dataset:该数据集包含了激光雷达和摄像头采集的城市场景数据,适用于自动驾驶研究和算法评估。 15. ModelNet40:该数据集是ModelNet的变种,包含了40个类别的3D模型点云数据,用于模型分类和分割。 16. Stanford Dragon Dataset:该数据集提供了来自不同视角的龙的3D点云数据,适用于形状分析和重建。 17. LINEMOD:该数据集提供了6个物体的激光雷达点云和RGB图像数据,用于视觉物体识别和位姿估计。 18. S3DIS:该数据集包含了大量室内场景的激光雷达点云和RGB图像数据,适用于场景分割和室内导航等任务。 19. PartNet:该数据集包含了不同零件的3D模型点云数据,适用于部件检测和分割任务。 20. SHREC'14:该数据集包含了来自不同物体类别的3D模型点云数据,适用于3D模型检索和分类研究。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值