一个老哥尝试使用TikTok 推出的AI模型(Depth Anything)和 WebXR 将 2d 视频内存转换为现实空间视频

TikTok 推出 Depth Anything,释放大规模未标记数据的力量,这项工作提出了 Depth Anything,这是一种非常实用的解决方案,通过对 150 万张标记图像和 6200 万以上未标记图像的组合进行训练,实现稳健的单目深度估计。

WebXR是一组标准,它们一起使用来支持将 3D 场景渲染到设计用于呈现虚拟世界(虚拟现实或 VR)或向现实世界添加图形图像(增强现实或 AR)的硬件。 WebXR 设备 API 实现了 WebXR 功能集的核心,管理输出设备的选择,以适当的帧速率将 3D 场景渲染到所选设备,并管理使用输入控制器创建的运动矢量。

纸质页: https://huggingface.co/papers/2401.10891

演示: https://huggingface.co/spaces/LiheYoung/Depth-Anything

教程专区:AI绘画,AI视频,AI写作等软件类型AI教程,

通过设计数据引擎,收集并自动注释大规模未标记数据,从而扩大了数据集的覆盖范围,减少了泛化误差。为了实现数据扩展,该研究提出了两种简单而有效的策略。首先,利用数据增强工具创建更具挑战性的优化目标,这可以促使模型主动寻求额外的视觉知识并获得稳健的表示。其次,开发了辅助监督来强制模型从预训练的编码器继承丰富的语义先验。

通过广泛评估Depth Anything的零镜头能力,该研究在六个公共数据集和随机捕获的照片上进行了测试,结果显示该模型具有令人印象深刻的泛化能力。此外,通过使用NYUv2和KITTI度量深度信息对其进行微调,该研究还设置了新的SOTA(State of the Art)。最后,该研究指出,一个更好的深度模型会产生更好的深度调节ControlNet。

Depth Anything 在 150 万张标记图像和 6200 万以上未标记图像上联合进行训练,提供最强大的单目深度估计 (MDE) 基础模型,具有以下功能:

  • 零样本相对深度估计,优于 MiDaS v3.1 (BEiTL-512)
  • 零样本度量深度估计,优于 ZoeDepth(ControlNet另一种深度图形处理模型)
  • NYUv2 和 KITTI 上的最佳域内微调和评估
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值