多模态
文章平均质量分 90
分享一些多模态相关经典论文,以助大家更好的了解多模态
菜鸡不叫
研究生阶段学习人工智能,写一些自己的理解,希望可以帮助到大家
展开
-
【MS-CLIP】共享参数的ModalityShared CLIP (MS-CLIP) 架构
微软最新发布的 MS-CLIP,与两者都不同 —— 虽然它脱胎于 CLIP,设计了只处理单模态的 transformer encoder,但两个 encoder 之间是共享部分参数的。同时,它还为模型添加了基于 CNN 的两种辅助结构,让模型能够获取更多的图像信息。原创 2023-12-31 16:49:42 · 1030 阅读 · 0 评论 -
【 FILIP】一种大规模细粒度交互式语言图像预训练方法
作者引入了大规模细粒度交互式语言图像预训练(FILIP),通过跨模态后期交互机制实现更精细的对齐,该机制使用视觉token和文本token之间的token级别最大相似度指导对比学习的目标函数。FILIP 通过仅修改对比损失,成功地利用了图像块和文本单词之间的细粒度表达能力,同时获得了在推理时离线预计算图像和文本表示的能力,保持了大规模训练和推理的效率。作者构建了一个新的大规模图像文本对数据集 FILIP300M 进行预训练。原创 2023-12-26 13:44:06 · 1193 阅读 · 1 评论 -
【CLIP】多模态预训练模型CLIP论文详解
CLIP( Contrastive Language–Image Pre-training)基于对比学习的语言-图像预训练)建立在零样本迁移(zero-shot transfer)、自然语言监督学习( natural language supervision,) 和多模态学习方面的大量工作之上。CLIP是一个预训练模型,训练好的模型能实现,输入一段文本(或者一张图像),输出文本(图像)的向量表示。原创 2023-12-20 20:39:20 · 7648 阅读 · 2 评论 -
【FLIP】一种用于训练CLIP的简单而有效的方案
作者提出一种用于训练CLIP的简单而有效的方案FLIP(Fast Language-Image Pre-training, FLIP),它在训练过程中对图像块进行大比例的随机Mask移除。Mask机制使得CLIP可以在有限周期内学习到更多的image-text数据对,同时占有更少的内存。所提方案取得了更好的精度与训练时间均衡,相比无Mask基线方案,所提FLIP在精度与训练速度方面具有大幅改善。原创 2023-12-24 15:59:45 · 1307 阅读 · 0 评论