一、概述
1、是什么
是一个纯视觉的预训练模型(没有使用任何的文本标签),全称《Scalable Pre-training of Large Autoregressive Image Models》,仿照LLM GPT的训练思路(解码器,但是是前缀自注意力),将一幅图像分块预测图像的下一块(像素值)。主要作为预训练权重,可以用于图像分类、检索等下游任务。
2、亮点
*在20亿张图像上预训练70亿参数在ImageNet 1k上使用冻结的主干实现了84.0%精度。
*AIM 的预训练类似于 LLM 的预训练,不需要任何特定于图像的策略来大规模稳定训练。
*发现并验证了和LLM相似的两个性质:(1)视觉特征的性能与模型容量和数据量成正比,(2)目标函数的值与模型在下游任务上的性能相关。
PS
*这个论文还是建议看一下:一方面这个是借鉴LLM的预训练思路到CV领域,避免重复工作;另一方面文章的消融实验非常扎实,
本文介绍了纯视觉预训练模型AIM,该模型在20亿张图像上训练,无需文本标签,能用于图像分类和检索等任务。AIM采用前缀自注意力机制,其性能与模型容量和数据量正相关,且预训练过程类似语言模型。模型在ImageNet 1k上取得了84.0%的精度,通过消融实验展示了模型设计的有效性。AIM展示了视觉预训练的潜力,为CV领域的LLM式方法提供了新的视角。
订阅专栏 解锁全文
3220

被折叠的 条评论
为什么被折叠?



