EVA:Exploring the Limits of Masked Visual Representation Learning at Scale

???/cy

已于 2024-01-08 18:02:38 修改

阅读量589

点赞数 10

文章标签： AI CLIP 人工智能计算机视觉

于 2024-01-08 17:24:18 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_45842681/article/details/135459468

版权

文章目录

Abstract
Highlight
Introduction

Abstract

EVA是一个基础的Transformer视觉模型
预训练任务：训练的图片是masked掉的50%的patches, 模型的任务是预测被遮挡的图像特征。
模型经过预训练，学会了通过图像和文本的对齐关系来重构被遮挡的部分，使其能够理解图像和文本之间的关联。
通过这个预训练任务，我们能够高效地将EVA扩展到十亿个参数。
这样就可以得到很大的模型，在下游任务上会有很好的表现

通过MIM 预训练，使得基于CLIP的预训练模型变大，得到1B param的EVA
，这个EVA模型迁移在下游任务中表现非常好。

Highlight

用EVA初始化的CLIP模型，无论文是数据量，还是GPUs消耗情况，都比原始的CLIP要高效和有效。这样不但加速了训练的过程，而且提高了zero-shot classification的表现。

Introduction

为大规模视觉表征学习找到了一个合适的MIM预训练目标
在1B-parameters with 亿级未标签的数据的量级探索它的极限

EVA arxiv
EVA这篇论文翻译写的很好

关注

10
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
EVA:Exploring the Limits of Masked Visual Representation Learning at Scale

EVA是一个基础的Transformer视觉模型预训练任务：训练的图片是masked掉的50%的patches, 模型的任务是预测被遮挡的图像特征。模型经过预训练，学会了通过图像和文本的对齐关系来重构被遮挡的部分，使其能够理解图像和文本之间的关联。通过这个预训练任务，我们能够高效地将EVA扩展到十亿个参数。这样就可以得到很大的模型，在下游任务上会有很好的表现通过MIM 预训练，使得基于CLIP的预训练模型变大，得到1B param的EVA，这个EVA模型迁移在下游任务中表现非常好。
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。