自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

Eternity666long的博客

计算机视觉

关注

文章平均质量分 95

关注数：文章数：1 文章阅读量：1354 文章收藏量：20

作者: EternityLoong

这个作者很懒，什么都没留下…

展开

【论文和源码解读】Scaling on Scales：When Do We Not Need Larger Vision Models?

对于更好的视觉理解来说，更大的模型一定是必要的吗？Scaling on Scales 的作者提出保持预训练模型的规模不变，通过在越来越多的图像尺寸上运行获得越来越强大的特征。使用 Scaling on Scales 方法进行预训练可提高较小模型的泛化能力，使其能够与较大模型相媲美。使用该方法在多个图像尺度上运行的预训练和冻结的较小视觉模型（例如，ViT-B或ViT-L）可以在图像分类、语义分割、深度估计、多模态 LLM (MLLM) 基准和机器人操作上优于较大模型（例如，ViT-H或ViT-G）。

原创 2024-03-26 15:56:08 · 1354 阅读 · 1 评论