多模态学习_多模态互信息csdn-CSDN博客

本文链接：https://blog.csdn.net/Tankoldbang/article/details/140380244

今天在B站上找到了李沐老师的多模态串讲视频，csdn上也有人已经做了相关笔记记录

多模态论文串讲笔记_mask data modeling-CSDN博客

常见术语

VE（视觉嵌入）、TE（文本嵌入）和 MI（模态交互）分别表示不同的网络组件

损失

图文匹配 ITM、掩膜语言模型 MLM 和文本图像块对齐 WPA。ITM 判断输入的文本与图像是否匹配，本质上是一个二分类问题。MLM 即 BERT 提出的”完形填空“，预测输入的文本中被挖去的单词。WPA 则是要对齐输入文本与图像块

对比损失 ITC 要求来自同一图文对的图像文本特征在特征空间中靠近，来自不同图文对的特征在特征空间中远离

ALBEF

的两大贡献具体实现

ALBEF 在训练时，通过动量蒸馏（momentum distillation）这种自训练的学习方式来从网络图文对数据中学习，缓解原始数据中噪声较大的问题。ALBEF 通过改进训练方式，通过自学习生成伪标签的方式来进行数据清洗，改进数据的质量。在理论上，ALBEF 论文通过互信息最大化的角度，解释了不同的多模态任务，其实就是在为图文对提供不同的视角（view），类似于在做一种数据增强，使得训练得到的多模态模型能理解不同模态下的语义，即具备 Semantic Preserving 的能力

网上爬取的图文对训练数据，称为 Alt text（Alternative Text），这种训练数据无需人工标注，规模巨大，是近年来多模态学习主要使用的训练数据。但是这种数据的缺点是噪声较大。很多网络图片和它的描述文本是不对应的。比如一张青山绿水的景点照片，网络上的对应文字不会是“一座很美丽的山，下面有清澈的河流”这种我们想要的描述性的文本，而很可能会是这个景点的名字，如“桂林山水”。从语义的角度来说，这样的图文对是弱关联（weakly correlated）的，不是我们想要的训练样本。

这篇文章中提到的GT到底是指什么模型？

多模态表征学习的下游任务

VLMo

在当时，多模态学习领域还没有特别巨大规模的数据集（如现在 LAION 数据集规模已过十亿）。VLMo 的作者想到可以用文本和视觉各自领域的超大规模数据集先分别对 “文本专家” 和 “视觉专家” 进行预训练，然后再在多模态数据集上进行预训练。实验证明，在文本/视觉各自领域数据集上进行预训练带来的提升很大。

借助 ITC 为 ITM 进行难负例挖掘这个指的是什么？

Hard Negative Mining - 知乎 (zhihu.com)

这里比较有意思的是在单独的文本数据上进行训练时，自注意力层是冻结的。也就是说，通过图像数据训练出的自注意力层，在文本数据上甚至连微调都不需要，就能工作得很好。