多模态bert-基于双流的bert 笔记 ViLBert、LXMERT、IMAGEBERT

最新推荐文章于 2024-08-03 18:40:55 发布

mishidemudong

最新推荐文章于 2024-08-03 18:40:55 发布

阅读量888

点赞数

分类专栏：多模态学习文章标签：深度学习自然语言处理

原文链接：https://blog.csdn.net/u010138055/article/details/105429103

版权

多模态学习专栏收录该内容

9 篇文章

订阅专栏

ViLBert
paper: ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks

基于双流的 ViLBERT，在一开始并未直接对语言信息和图片信息进行融合，而是先各自经过 Transformer 的编码器进行编码。分流设计是基于这样一个假设，语言的理解本身比图像复杂，而且图像的输入本身就是经过 Faster-RCNN 提取的较高层次的特征，因此两者所需要的编码深度应该是不一样的。

双流的 ViLBERT包括两个平行的视觉（绿色）和语言（紫色）处理流，它们通过新的共同注意转换层相互作用。这种结构允许每个模态的不同深度，并通过共同注意实现稀疏交互。带乘数下标的虚线框表示重复的层块。

输入：Image 和text ：

输出：Attention 过的 Image 和text 的表示

模型

1.预训练步骤

2.联合表示Image 和Text

两个任务：1. 预训练：Mask掉image 和部分文字去预测image 或者word ；2 微调：预测是否对应

创新：在结构上加入交互attention之后去训练

2. LXMERT 论文解读
paper:（EMNLP 2019） LXMERT: Learning Cross-Modality Encoder Representations from Transformers

code: https://github.com/airsplay/lxmert

理解这两种模式之间的对齐和关系,提出对两种模态分布进行建模。这个框架模仿了最近的bert风格的创新，同时进一步适应了有用的跨模态场景。我们的新跨模态模型侧重于视觉和语言的交互学习，特别是对单个图像的表示和它的描述性语句。

模型结构