VM 系列——AIM——论文解读

37 篇文章 17 订阅 ¥89.90 ¥99.00
本文介绍了纯视觉预训练模型AIM,该模型在20亿张图像上训练,无需文本标签,能用于图像分类和检索等任务。AIM采用前缀自注意力机制,其性能与模型容量和数据量正相关,且预训练过程类似语言模型。模型在ImageNet 1k上取得了84.0%的精度,通过消融实验展示了模型设计的有效性。AIM展示了视觉预训练的潜力,为CV领域的LLM式方法提供了新的视角。
摘要由CSDN通过智能技术生成

一、概述

1、是什么

    是一个纯视觉的预训练模型(没有使用任何的文本标签),全称《Scalable Pre-training of Large Autoregressive Image Models》,仿照LLM GPT的训练思路(解码器,但是是前缀自注意力),将一幅图像分块预测图像的下一块(像素值)。主要作为预训练权重,可以用于图像分类、检索等下游任务。

2、亮点

    *在20亿张图像上预训练70亿参数在ImageNet 1k上使用冻结的主干实现了84.0%精度。

    *AIM 的预训练类似于 LLM 的预训练,不需要任何特定于图像的策略来大规模稳定训练。

    *发现并验证了和LLM相似的两个性质:(1)视觉特征的性能与模型容量和数据量成正比,(2)目标函数的值与模型在下游任务上的性能相关。

PS

    *这个论文还是建议看一下:一方面这个是借鉴LLM的预训练思路到CV领域,避免重复工作;另一方面文章的消融实验非常扎实,

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

TigerZ*

你点滴支持,我持续创作,羞羞

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值