一、概述
1、是什么
CLIP 的中文版《Chinese CLIP: Contrastive Vision-Language Pretraining in Chinese》,训练使用2亿 图-文 对的对比学习(不是LLM的预测下一个token),是一个双塔模型(图像和文本各子拥有一个编码器)。由于对齐了图像和文本特征,可以用来做:图-图(文章中没有相关测试任务)、图-文、文-图、文-文(文章中没有相关测试任务)的检索,当然 图-文 和 文-图 检索 也可以转化为zero-shot 的分类。
2、亮点
*开源代码、模型(多个版本模型:图像编码器提供5种,参数量77-958M)、demo,并且提供用于部署的NVIDIA TensorRT和ONNX模型,比用于推理的Pytorch模型快2到10倍。
*消融实验后验证,两阶段训练更优:使用CLIP初始化,先训练文本编码器;再联合训练。
*在MUGE
本文深入解读了VLM系列中的中文CLIP模型,涵盖模型结构、训练策略、数据处理和实验结果。重点讨论了模型在多维度任务上的表现,包括检索性能、零样本分类和知识蒸馏等,并指出了未来研究中待解决的数据和模型问题。
订阅专栏 解锁全文
517

被折叠的 条评论
为什么被折叠?



