MLP Architectures for Vision-and-Language Modeling: An Empirical Study 笔记

最新推荐文章于 2022-12-31 15:24:42 发布

乄洛尘

最新推荐文章于 2022-12-31 15:24:42 发布

阅读量2.6k

点赞数 2

分类专栏：多模态研究文章标签：多模态融合

本文链接：https://blog.csdn.net/qq_38929105/article/details/121959380

版权

多模态研究专栏收录该内容

27 篇文章 22 订阅

订阅专栏

MLP Architectures for Vision-and-Language Modeling: An Empirical Study 笔记

一、Abstract
二、引言
三、相关工作
四、方法
五、实验
六、消融实验
七、结论+展望
八、附录
博主认为的值得一阅的参考文献

写在前面
这是一篇实验性质的论文，重点在于结论，这也是笔者第一次接触到这类文章，总体来说，重点关注实验结论，至于实验过程，还是尽量看懂其实验的步骤，无需过度理解。另外，参考文献中的一些文章值得细细阅读，会在博文最后面给出。

论文地址：MLP Architectures for Vision-and-Language Modeling: An Empirical Study
代码地址：Github，开源了但没完全开源~
看论文的风格，盲猜一波：预计提交了2022年的CVPR~

这篇博文也不打算扯太多东西了，不切分子标题了，也基本上无需再次翻阅原文了~

一、Abstract

首次研究了MLP架构用于VL融合。在5个VL任务和5个数据集上进行实验。结果：

没有预训练的情况下，MLPs相比于Transformer有明显的性能代沟；
VL预训练能够弥补这种代沟；
多头注意力机制并非那么牛，只需要在MLPs上加个单头注意力就足以表现的和transformer差不多的性能；
当进行鲁棒性VQA实验时，MLPs和Transform代沟会变小，这一点表明了使用MLPs用于VL融合能够泛化到和Transform类似的性能。

这些发现证实了MLPs可以有效的对齐VL特征而不需要self-attention，那么问题来了，能够用MLPs代替VL模型结构吗？答案是不行，所有的MLPs相较于最先进的VL模型，处于预训练的情况下，精度是次优的，但是预训练的MLP能够超过没有预训练的transform(废话)。

二、引言

前面的故事主要是讲一些MLP模型在分类任务中能够和Transform媲美，那么在多模态任务中呢？遂有了接下来的这篇论文。本文贡献如下：

首次研究了MLPs用于VL；
5个VL任务，收集了足够的证据证明摘要的结论以及MLPs存在的限制；
在5个VQA数据集上进行分析，MLPs加上单个注意力头能够大致取得Transform差不多的性能。

三、相关工作

两个部分的预训练介绍下：视觉-语言预训练，MLPs在视觉和语言方面的应用。

四、方法

在这里插入图片描述
上图中 Or 的部分就是这一节的介绍内容。

五、实验

实验步骤：
预训练数据集：COCO、VG、VQA、GQA
预训练目标：MLM、ITM、VQA
其他训练设置：Batch-512, 16块 V100， 5-6天，得，又是个烧钱的工作，惹不起！
下游任务：VQA、GQA、Visual Entailment(SNLI-VE)、NLVR、ITR(检索)
鲁棒性数据集：VQA-Rephrasings、VQA-LOL、GQA-OOD
MLPs的结果
摘要里面那些
纯MLPs的结果
仍有待进一步挖掘的空间(搁这挖坑呢)
鲁棒性分析
纯MLPs提升空间很大(搁这挖坑呢)

六、消融实验

训练集的尺度
当然越大越好啊
参数尺度的影响
当然到某个程度就饱和滴啦
视觉和文本编码器的有效性
MLP很有前景(搁这挖坑呢)
主要发现
MLP在分类上行不行？行
MLP在VL任务上行不行？不行
MLP的变种比较
正常灌水，总之比Transform低
权重可视化
越到后面越融合在一起滴啦

七、结论+展望

结论：摘要里面那些
展望：加大数据，加大模型，前提：钱烧的足够多！

八、附录

更多的结果
模型加变化
图文匹配的结果
正常分析，给出MLP的潜力(挖坑)
参数量和浮点数
这次我站MLP那边
下游任务的实验设置
VQA、Visual Entailment (SNLI-VE)、Natural Language for Visual Reasoning for Real (NLVR)、ImageText Retrieval、
鲁棒性数据集介绍
VQA-Rephrasings、VQA-LOL、Adversarial VQA、GQA-OOD
额外的细节
换成CNN

博主认为的值得一阅的参考文献

以下这些文章我后面也会一一去阅读的，共同进步，奥利给！

【5】Jize Cao, Zhe Gan, Yu Cheng, Licheng Yu, Yen-Chun Chen, and Jingjing Liu. Behind the scene: Revealing the secrets of pre-trained vision-and-language models. In ECCV, 2020. 5
【10】Tejas Gokhale, Pratyay Banerjee, Chitta Baral, and Yezhou Yang. Vqa-lol: Visual question answering under the lens of logic. In ECCV, 2020. 2, 5, 15
【14】Lisa Anne Hendricks, John Mellor, Rosalia Schneider, Jean-Baptiste Alayrac, and Aida Nematzadeh. Decoupling the role of data, attention, and losses in multimodal transformers. arXiv preprint arXiv:2102.00529, 2021. 5
【32】Linjie Li, Zhe Gan, and Jingjing Liu. A closer look at the robustness of vision-and-language pre-trained models. arXiv preprint arXiv:2012.08673, 2020. 5, 15
【33】Linjie Li, Jie Lei, Zhe Gan, and Jingjing Liu. Adversarial vqa: A new benchmark for evaluating the robustness of vqa models. In ICCV, 2021. 2, 5, 15
【48】Meet Shah, Xinlei Chen, Marcus Rohrbach, and Devi Parikh. Cycle-consistency for robust visual question answering. In CVPR, 2019. 2, 5, 15
【50】Sasha Sheng, Amanpreet Singh, Vedanuj Goswami, Jose Alberto Lopez Magana, Wojciech Galuba, Devi Parikh, and Douwe Kiela. Human-adversarial visual question answering. In NeurIPS, 2021. 2, 5, 15

写在后面
本篇博文就这样潦草结束了，还是那句话，结论重要，论文没时间看的就不用去阅读了。博文最后列出来的几篇参考文献还是值的一看滴~

乄洛尘

关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
2
评论
MLP Architectures for Vision-and-Language Modeling: An Empirical Study 笔记

这是一篇实验性质的论文，重点在于结论，这也是笔者第一次接触到这类文章，总体来说，重点关注实验结论，至于实验过程，还是尽量看懂其实验的步骤，无需过度理解。另外，参考文献中的一些文章值得细细阅读，会在博文最后面给出。
复制链接

扫一扫