多模态学习

今天在B站上找到了李沐老师的多模态串讲视频,csdn上也有人已经做了相关笔记记录

多模态论文串讲笔记_mask data modeling-CSDN博客

常见术语

VE(视觉嵌入)、TE(文本嵌入)和 MI(模态交互)分别表示不同的网络组件

损失  

图文匹配 ITM、掩膜语言模型 MLM 和文本图像块对齐 WPA。ITM 判断输入的文本与图像是否匹配,本质上是一个二分类问题。MLM 即 BERT 提出的”完形填空“,预测输入的文本中被挖去的单词。WPA 则是要对齐输入文本与图像块

对比损失 ITC 要求来自同一图文对的图像文本特征在特征空间中靠近,来自不同图文对的特征在特征空间中远离

ALBEF 

的两大贡献具体实现 

ALBEF 在训练时,通过动量蒸馏(momentum distillation)这种自训练的学习方式来从网络图文对数据中学习,缓解原始数据中噪声较大的问题。ALBEF 通过改进训练方式,通过自学习生成伪标签的方式来进行数据清洗,改进数据的质量。在理论上,ALBEF 论文通过互信息最大化的角度,解释了不同的多模态任务,其实就是在为图文对提供不同的视角(view),类似于在做一种数据增强,使得训练得到的多模态模型能理解不同模态下的语义,即具备 Semantic Preserving 的能力

网上爬取的图文对训练数据,称为 Alt text(Alternative Text),这种训练数据无需人工标注,规模巨大,是近年来多模态学习主要使用的训练数据。但是这种数据的缺点是噪声较大。很多网络图片和它的描述文本是不对应的。比如一张青山绿水的景点照片,网络上的对应文字不会是“一座很美丽的山,下面有清澈的河流”这种我们想要的描述性的文本,而很可能会是这个景点的名字,如“桂林山水”。从语义的角度来说,这样的图文对是弱关联(weakly correlated)的,不是我们想要的训练样本。

这篇文章中提到的GT到底是指什么模型?

多模态表征学习的下游任务

VLMo

在当时,多模态学习领域还没有特别巨大规模的数据集(如现在 LAION 数据集规模已过十亿)。VLMo 的作者想到可以用文本和视觉各自领域的超大规模数据集先分别对 “文本专家” 和 “视觉专家” 进行预训练,然后再在多模态数据集上进行预训练。实验证明,在文本/视觉各自领域数据集上进行预训练带来的提升很大。

借助 ITC 为 ITM 进行难负例挖掘 这个指的是什么?

Hard Negative Mining - 知乎 (zhihu.com)

这里比较有意思的是在单独的文本数据上进行训练时,自注意力层是冻结的。也就是说,通过图像数据训练出的自注意力层,在文本数据上甚至连微调都不需要,就能工作得很好。

二、Transformer Encoder-Decoder

BLIP
  • 5
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值