Scaling Language-Image Pre-training via Masking

怎么全是重名

已于 2023-10-22 14:48:21 修改

阅读量148

点赞数 1

分类专栏：论文笔记文章标签：人工智能计算机视觉深度学习

于 2023-09-17 11:40:42 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qihshe/article/details/132940289

版权

论文笔记专栏收录该内容

84 篇文章 2 订阅

订阅专栏

在这里插入图片描述
论文链接：嘻嘻哈哈

Abstract

FLIP是一种简单且高效训练CLIP的方法，它在训练过程中去除了大量的图像补丁
FLIP方法比CLIP方法训练得更快，更准确

Introduction

text masking带来的增益很小，因为文本编码器较小，文本序列较短
CLIP训练非常耗时，收到MAE稀疏计算的启发，随机的去除了大部分图像补丁，提出的FLIP可达到他3.7倍的速度，并且精度类似甚至更优
通过引入masking，可以在相同的挂钟训练时间下，看到更多的样本对,在相似的内存占用下，每批次可以比较更多的样本对
model scaling，data scaling都能提高精准率，schedule scaling几乎没有增益，且同时进行model+data是优于分开的总和

Method

在这里插入图片描述

Image masking

作者采用视觉变压器(ViT)作为图像编码器。首先将图像划分为不重叠的小块网格。随机屏蔽掉很大一部分(例如，50%或75%)的补丁

Text masking

因为文本编码器较小，文本序列较短，总的速度增益是微不足道的

Objective

大量的负样本对于图像的自监督对比学习至关重要

Unmasking

虽然编码器是在遮罩图像上进行预训练的，但它可以直接应用于完整的图像而不做任何改变，为了缩小掩蔽造成的分布差距，我们可以将掩蔽率设置为0%，继续进行小步数的预训练。这种Unmasking的调优策略产生了更有利的精度/时间权衡
在这里插入图片描述

Experiment and Conclusion

在各种各样的场景中，FLIP明显优于其CLIP对应物

在某些情况下，数据差距很大。正如在许多下游任务中观察到的那样，WIT数据和LAION数据之间的差异可能会造成很大的系统差距。
在这里插入图片描述

怎么全是重名

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Scaling Language-Image Pre-training via Masking

FLIP是一种简单且高效训练CLIP的方法，它在训练过程中去除了大量的图像补丁。
复制链接

扫一扫

专栏目录

怎么全是重名 CSDN认证博客专家 CSDN认证企业博客

码龄5年

194: 原创

39万+: 周排名

1万+: 总排名

8万+: 访问

: 等级

3140: 积分

745: 粉丝

1177: 获赞

15: 评论

853: 收藏

私信

关注

热门文章

分类专栏

最新评论

ImportError: DLL load failed while importing _ext: 找不到指定的模块。
肥泉: 还真是。感谢！
mmcv-full安装失败更换whl安装
PDD工程师: 好文，细节很到位！【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
Libra R-CNN: Towards Balanced Learning for Object Detection（2019.4）
普通网友: 这篇文章真是一篇佳作!作者运用了生动有趣的语言,将枯燥的理论知识娓娓道来,让人如沐春风。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
BAGS：Overcoming Classiﬁer Imbalance for Long-tail Object Detection with Balanced Group Softmax
普通网友: 你的博客内容深入浅出，总是让我不再感到学习的困难，每一篇博文都是我学习的宝库。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
ModuleNotFoundError: No module named ‘aitodpycocotools‘
shengchao0920: aitodpycocotools多一个oLRP指标的计算安装方法： pip install "git+https://github.com/jwwangchn/cocoapi-aitod.git#subdirectory=aitodpycocotools"

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

2024

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。