depth anything解读与复现教程

图像阿克曼

已于 2024-02-18 22:59:16 修改

阅读量9.2k

点赞数 38

文章标签：人工智能神经网络深度学习计算机视觉

于 2024-02-18 22:55:10 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_58846303/article/details/136159562

版权

TikTok与高校合作的DepthAnything技术能从2D图像中高效提取深度信息，提升3D转换质量。本文介绍了技术原理、论文贡献、模型复现步骤，以及未来可能的研究方向，如模型优化转换。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

目录

depth anything介绍

depth anything复现

源码和权重文件clone

如果你仅仅是想试用一下效果

进一步展望

depth anything介绍

近日，TikTok发布一项新型AI技术“DepthAnything”，该技术由TikTok联合香港大学和浙江大学共同研发的一种先进单目深度估计（MDE）技术，能更有效地从2D图像中识别出深度信息图。基于这些深度信息图，普通的2D影像便可转化为3D影像。相比此前已有技术，“DepthAnything”在提升深度图的质量方面取得重大突破。此技术的应用将使得TikTok平台上现有的海量2D影像能够轻松转化为3D影像，让普通手机拍摄的2D影像“一键转3D”，或将大幅推进XR产业的发展。

论文地址：Depth Anything: Unleashing the Power of Large-Scale Unlabeled Data

源码地址：GitHub - LiheYoung/Depth-Anything: Depth Anything: Unleashing the Power of Large-Scale Unlabeled Data. Foundation Model for Monocular Depth Estimation

这篇论文的主要贡献包括：

强调了大规模、低成本和多样化无标注图像的数据扩展对 MDE 价值。
指出了在联合训练大规模有标注和无标注图像方面的一个重要实践方法：不是直接学习原始无标注图像，而是为模型提供更困难的优化目标，让

最低0.47元/天解锁文章

图像阿克曼

博客等级

码龄4年

14
原创

262
点赞

374
收藏

261
粉丝

关注

私信

热门文章

分类专栏

最新评论

YOLOv5知识蒸馏实战篇
一个小小双子座: train_distillation.py 代码在哪
YOLOv5-6.1剪枝实战
油炸鸡米花_01: 请问对缩放因子可视化的图片应该怎么导出来啊
depth anything解读与复现教程
m0_60418891: 请问是这么改的吗depth_anything = DepthAnything.from_pretrained(model_configs)用了这个出现了下面问题，应该怎么解决呢 HFValidationError: Repo id must use alphanumeric chars or '-', '_', '.', '--' and '..' are forbidden, '-' and '.' cannot start or end the name, max length is 96: '{'vitl': {'encoder': 'vitl', 'features': 256, 'out_channels': [256, 512, 1024, 1024]}, 'vitb': {'encoder': 'vitb', 'features': 128, 'out_channels': [96, 192, 384, 768]}, 'vits': {'encoder': 'vits', 'features': 64, 'out_channels': [48, 96, 192, 384]}}'.
depth anything解读与复现教程
m0_60418891: HFValidationError: Repo id must use alphanumeric chars or '-', '_', '.', '--' and '..' are forbidden, '-' and '.' cannot start or end the name, max length is 96: '{'vitl': {'encoder': 'vitl', 'features': 256, 'out_channels': [256, 512, 1024, 1024]}, 'vitb': {'encoder': 'vitb', 'features': 128, 'out_channels': [96, 192, 384, 768]}, 'vits': {'encoder': 'vits', 'features': 64, 'out_channels': [48, 96, 192, 384]}}'.
推理时间（FPS）的定义及实战
图像阿克曼: fps都是总括的。完整处理一个图像

大家在看

最新文章

目录

评论 15

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

图像阿克曼 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。