facebook Meta AI
关键词:多模态、大模型、加速训练。
代码:https://github.com/facebookresearch/CiT
文章:https://arxiv.org/pdf/2301.02241.pdf
文章主要介绍了CiT这个算法:
CiT:一种加速训练大型Vision-Language模型(大型视觉语言模型)的方法。
具体思路:它将数据目标结合到训练中,CiT自动生成高质量的数据,以加速对比图像-文本训练。CiT包含两个循环:一个管理训练数据的外环和一个使用被管理的训练数据的内环。
应用:给定感兴趣任务的元数据,例如类名和大量的图像-文本对,CiT通过度量其文本嵌入和元数据嵌入的相似性,从池中选择相关的训练数据。
主要框架:
下图是CiT两个环和CLIP模型训练的比较:
具体训练过程:
(1)CiT整体流程
(2)CiT算法中Curation函数
DataProxy——选取训练数据
对于传入的Xtxt,计算得到与meta数据最相似的vector。
Dt为选取的vector组成的集合:
数据够的话,直接取Dt;数据不够的话则取topK的数据
(3)CiT算法中Training函数
与CLIP的主要区别:
(1)主要是在数据上做改变——不定的epoch和动态的训练数据。
(2)训练过程中,改变了Training Objective,只计算img2txt的loss部分