【论文和源码解读】Scaling on Scales:When Do We Not Need Larger Vision Models?
对于更好的视觉理解来说,更大的模型一定是必要的吗?Scaling on Scales 的作者提出保持预训练模型的规模不变,通过在越来越多的图像尺寸上运行获得越来越强大的特征。使用 Scaling on Scales 方法进行预训练可提高较小模型的泛化能力,使其能够与较大模型相媲美。使用该方法在多个图像尺度上运行的预训练和冻结的较小视觉模型(例如,ViT-B或ViT-L)可以在图像分类、语义分割、深度估计、多模态 LLM (MLLM) 基准和机器人操作上优于较大模型(例如,ViT-H或ViT-G)。
原创
2024-03-26 15:56:08 ·
1354 阅读 ·
1 评论