DINOv3权重文件下载

前言

DINOv3 是一系列多功能视觉基础模型,无需微调即可在各种设置中优于专业技术水平。DINOv3 产生高质量的密集特征,在各种视觉任务中实现出色的性能,显着超越以前的自监督和弱监督基础模型。

模型型号介绍

以下是按照 DINOv3 论文中描述的方法训练的 Vision Transformer 和 ConvNeXt 模型所提供的 12 种模型变体:

  • 10 个模型在 Web 数据上预训练(LVD-1689M 数据集)
    1. 从头开始训练的ViT-7B
    2. 从 ViT-7B 中蒸馏出来的 ViT-S/S+/B/L/H+
    3. 从 ViT-7B 中提炼而来的 ConvNeXt-{T/S/B/L} 型号
  • 2 个在卫星数据上预训练的模型(SAT-493M 数据集)
    1. 从头开始训练的ViT-7B
    2. 从 ViT-7B 中蒸馏出来的ViT-L

模型输入和输出

每个基于 Transformer 的模型都采用图像作为输入,并返回类令牌、补丁令牌(和注册器令牌)。这些模型遵循 ViT 架构,补丁大小为 16。对于 224x224 映像,这将产生 1 个类令牌 + 4 个寄存器令牌 + 196 个补丁令牌 = 201 个令牌(对于具有寄存器的 DINOv2,这导致 1 + 4 + 256 = 261 个令牌)。

如果图像形状是补丁大小的倍数,则模型可以接受更大的图像。如果未验证此条件,则模型将裁剪到最接近的补丁大小的较小倍数。

相关地址

相关的介绍可以参考 https://huggingface.co/facebook/dinov3-vit7b16-pretrain-lvd1689m

权重下载

  • huggingface(目前无法使用):目前在huggingface上下载需要获取权限(刚上线的时候还是不用的,所以还是要及时下载)
    在这里插入图片描述
  • github仓库(需申请后可正常使用): 在页面中点击模型下载链接(见下图1),并填写相关信息即可。为提高申请成功率,建议使用美国 IP,姓名可随意填写英文,邮箱推荐使用 Gmail,地区选择美国,机构可填写 Meta AI。通常几分钟后即可收到包含下载地址的邮件,点击其中的链接即可获取权重文件。

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

权重下载链接

DINO权重网盘下载链接

评论 16
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值