【2023】CiT: Curation in Training for Effective Vision-Language Data

CiT是一种新的方法,通过结合数据目标来加速大型视觉语言模型的训练。它包含内外两个循环,外环管理训练数据,内环使用这些数据进行训练。CiT利用元数据选择相关训练样本,通过比较文本嵌入和元数据嵌入的相似性。与CLIP相比,CiT的不同在于其动态的数据选择和训练目标,仅计算img2txt的损失部分。
摘要由CSDN通过智能技术生成

facebook Meta AI
关键词:多模态、大模型、加速训练。
代码:https://github.com/facebookresearch/CiT
文章:https://arxiv.org/pdf/2301.02241.pdf

文章主要介绍了CiT这个算法:
CiT:一种加速训练大型Vision-Language模型(大型视觉语言模型)的方法。

具体思路:它将数据目标结合到训练中,CiT自动生成高质量的数据,以加速对比图像-文本训练。CiT包含两个循环:一个管理训练数据的外环和一个使用被管理的训练数据的内环。

应用:给定感兴趣任务的元数据,例如类名和大量的图像-文本对,CiT通过度量其文本嵌入和元数据嵌入的相似性,从池中选择相关的训练数据。

主要框架
下图是CiT两个环和CLIP模型训练的比较:
CiT两个环和CLIP模型训练的比较
具体训练过程:
(1)CiT整体流程
CiT

(2)CiT算法中Curation函数
在这里插入图片描述

DataProxy——选取训练数据

对于传入的Xtxt,计算得到与meta数据最相似的vector。
Dt为选取的vector组成的集合:
在这里插入图片描述
数据够的话,直接取Dt;数据不够的话则取topK的数据
在这里插入图片描述

(3)CiT算法中Training函数
在这里插入图片描述

与CLIP的主要区别:
(1)主要是在数据上做改变——不定的epoch和动态的训练数据。
(2)训练过程中,改变了Training Objective,只计算img2txt的loss部分

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值