一个老哥尝试使用TikTok 推出的AI模型（Depth Anything）和 WebXR 将 2d 视频内存转换为现实空间视频

最新推荐文章于 2024-09-17 16:52:57 发布

喜好儿网

最新推荐文章于 2024-09-17 16:52:57 发布

阅读量527

点赞数 9

本文链接：https://blog.csdn.net/heehelcom/article/details/135918394

版权

TikTok 推出 Depth Anything，释放大规模未标记数据的力量，这项工作提出了 Depth Anything，这是一种非常实用的解决方案，通过对 150 万张标记图像和 6200 万以上未标记图像的组合进行训练，实现稳健的单目深度估计。

WebXR是一组标准，它们一起使用来支持将 3D 场景渲染到设计用于呈现虚拟世界（虚拟现实或 VR）或向现实世界添加图形图像（增强现实或 AR）的硬件。 WebXR 设备 API 实现了 WebXR 功能集的核心，管理输出设备的选择，以适当的帧速率将 3D 场景渲染到所选设备，并管理使用输入控制器创建的运动矢量。

纸质页： https://huggingface.co/papers/2401.10891

演示： https://huggingface.co/spaces/LiheYoung/Depth-Anything

教程专区：AI绘画，AI视频，AI写作等软件类型AI教程，

通过设计数据引擎，收集并自动注释大规模未标记数据，从而扩大了数据集的覆盖范围，减少了泛化误差。为了实现数据扩展，该研究提出了两种简单而有效的策略。首先，利用数据增强工具创建更具挑战性的优化目标，这可以促使模型主动寻求额外的视觉知识并获得稳健的表示。其次，开发了辅助监督来强制模型从预训练的编码器继承丰富的语义先验。

通过广泛评估Depth Anything的零镜头能力，该研究在六个公共数据集和随机捕获的照片上进行了测试，结果显示该模型具有令人印象深刻的泛化能力。此外，通过使用NYUv2和KITTI度量深度信息对其进行微调，该研究还设置了新的SOTA（State of the Art）。最后，该研究指出，一个更好的深度模型会产生更好的深度调节ControlNet。

Depth Anything 在 150 万张标记图像和 6200 万以上未标记图像上联合进行训练，提供最强大的单目深度估计 (MDE) 基础模型，具有以下功能：