MLP Architectures for Vision-and-Language Modeling: An Empirical Study 笔记


写在前面
  这是一篇实验性质的论文,重点在于结论,这也是笔者第一次接触到这类文章,总体来说,重点关注实验结论,至于实验过程,还是尽量看懂其实验的步骤,无需过度理解。另外,参考文献中的一些文章值得细细阅读,会在博文最后面给出。

这篇博文也不打算扯太多东西了,不切分 子标题了,也基本上无需再次翻阅原文了~

一、Abstract

  首次研究了MLP架构用于VL融合。在5个VL任务和5个数据集上进行实验。结果:

  • 没有预训练的情况下,MLPs相比于Transformer有明显的性能代沟;
  • VL预训练能够弥补这种代沟;
  • 多头注意力机制并非那么牛,只需要在MLPs上加个单头注意力就足以表现的和transformer差不多的性能;
  • 当进行鲁棒性VQA实验时,MLPs和Transform代沟会变小,这一点表明了使用MLPs用于VL融合能够泛化到和Transform类似的性能。

  这些发现证实了MLPs可以有效的对齐VL特征而不需要self-attention,那么问题来了,能够用MLPs代替VL模型结构吗?答案是不行,所有的MLPs相较于最先进的VL模型,处于预训练的情况下,精度是次优的,但是预训练的MLP能够超过没有预训练的transform(废话)。

二、引言

  前面的故事主要是讲一些MLP模型在分类任务中能够和Transform媲美,那么在多模态任务中呢?遂有了接下来的这篇论文。本文贡献如下:

  • 首次研究了MLPs用于VL;
  • 5个VL任务,收集了足够的证据证明摘要的结论以及MLPs存在的限制;
  • 在5个VQA数据集上进行分析,MLPs加上单个注意力头能够大致取得Transform差不多的性能。

三、相关工作

  两个部分的预训练介绍下:视觉-语言预训练,MLPs在视觉和语言方面的应用。

四、方法

在这里插入图片描述
  上图中 Or 的部分就是这一节的介绍内容。

五、实验

  • 实验步骤:
    预训练数据集:COCO、VG、VQA、GQA
    预训练目标:MLM、ITM、VQA
    其他训练设置:Batch-512, 16块 V100, 5-6天,得,又是个烧钱的工作,惹不起!
    下游任务:VQA、GQA、Visual Entailment(SNLI-VE)、NLVR、ITR(检索)
    鲁棒性数据集:VQA-Rephrasings、VQA-LOL、GQA-OOD
  • MLPs的结果
    摘要里面那些
  • 纯MLPs的结果
    仍有待进一步挖掘的空间(搁这挖坑呢)
  • 鲁棒性分析
    纯MLPs提升空间很大(搁这挖坑呢)

六、消融实验

  • 训练集的尺度
    当然越大越好啊
  • 参数尺度的影响
    当然到某个程度就饱和滴啦
  • 视觉和文本编码器的有效性
    MLP很有前景(搁这挖坑呢)
  • 主要发现
    MLP在分类上行不行?行
    MLP在VL任务上行不行?不行
  • MLP的变种比较
    正常灌水,总之比Transform低
  • 权重可视化
    越到后面越融合在一起滴啦

七、结论+展望

  结论:摘要里面那些
  展望:加大数据,加大模型,前提:钱烧的足够多!

八、附录

  • 更多的结果
    模型加变化
  • 图文匹配的结果
    正常分析,给出MLP的潜力(挖坑)
  • 参数量和浮点数
    这次我站MLP那边
  • 下游任务的实验设置
    VQA、Visual Entailment (SNLI-VE)、Natural Language for Visual Reasoning for Real (NLVR)、ImageText Retrieval、
  • 鲁棒性数据集介绍
    VQA-Rephrasings、VQA-LOL、Adversarial VQA、GQA-OOD
  • 额外的细节
    换成CNN

博主认为的值得一阅的参考文献

  以下这些文章我后面也会一一去阅读的,共同进步,奥利给!

【5】Jize Cao, Zhe Gan, Yu Cheng, Licheng Yu, Yen-Chun Chen, and Jingjing Liu. Behind the scene: Revealing the secrets of pre-trained vision-and-language models. In ECCV, 2020. 5
【10】Tejas Gokhale, Pratyay Banerjee, Chitta Baral, and Yezhou Yang. Vqa-lol: Visual question answering under the lens of logic. In ECCV, 2020. 2, 5, 15
【14】Lisa Anne Hendricks, John Mellor, Rosalia Schneider, Jean-Baptiste Alayrac, and Aida Nematzadeh. Decoupling the role of data, attention, and losses in multimodal transformers. arXiv preprint arXiv:2102.00529, 2021. 5
【32】Linjie Li, Zhe Gan, and Jingjing Liu. A closer look at the robustness of vision-and-language pre-trained models. arXiv preprint arXiv:2012.08673, 2020. 5, 15
【33】Linjie Li, Jie Lei, Zhe Gan, and Jingjing Liu. Adversarial vqa: A new benchmark for evaluating the robustness of vqa models. In ICCV, 2021. 2, 5, 15
【48】Meet Shah, Xinlei Chen, Marcus Rohrbach, and Devi Parikh. Cycle-consistency for robust visual question answering. In CVPR, 2019. 2, 5, 15
【50】Sasha Sheng, Amanpreet Singh, Vedanuj Goswami, Jose Alberto Lopez Magana, Wojciech Galuba, Devi Parikh, and Douwe Kiela. Human-adversarial visual question answering. In NeurIPS, 2021. 2, 5, 15

写在后面
  本篇博文就这样潦草结束了,还是那句话,结论重要,论文没时间看的就不用去阅读了。博文最后列出来的几篇参考文献还是值的一看滴~

  • 2
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 2
    评论
### 回答1: mlp-mixer是一种全MLP架构,用于视觉任务。它使用多层感知机(MLP)来代替传统的卷积神经网络(CNN)来处理图像。这种架构的优点是可以更好地处理不同尺度和方向的特征,同时减少了计算和内存消耗。它在许多视觉任务中表现出色,例如图像分类、目标检测和语义分割。 ### 回答2: mlp-mixer是一种全连接多层感知器(Multi-Layer Perceptron,MLP)网络架构,用于视觉场景的图像分类任务。它是在自然语言处理领域中Transformer的启发下发展起来的。与CNN、ResNet等传统的卷积神经网络架构不同,mlp-mixer主要采用全连接层(FC)和MLP Block。 mlp-mixer架构设计的主要思想是将全局信息和本地信息分离,然后通过一系列由FC和MLP Block组成的混合层进行特征提取。在每个MLP Block中,特征向量会被分成多个部分进行局部特征提取,之后再全局汇聚。这样可以保证局部信息不会在多次卷积操作后丢失,并且全局信息的汇聚也是非常高效的。 另外,mlp-mixer架构中的Layer Norm和MLP Block中的GELU激活函数等技术也是有其特点的。Layer Norm是比Batch Norm更加具有一般性的归一化技术,可以提高模型对小批量数据的扩展性。而GELU激活函数在接近0处光滑,对精度保持了很好的提升。这些技术的运用让mlp-mixer模型具有了更好的稳定性和鲁棒性。 综上所述,mlp-mixer是一个全新的神经网络架构,其与传统的卷积神经网络的不同点在于摆脱了卷积操作,通过全连接层和MLP Block等模块提取图像特征。该模型有很强的泛化性,并且在图像分类任务上取得了不错的效果。它的优点在于良好的可扩展性和可解释性,且训练效果非常稳定。在未来,mlp-mixer模型或许有望在计算机视觉领域中取得更进一步的发展。 ### 回答3: MLP-Mixer是一种全MLP(多层感知器)的架构,可以应用于视觉任务中的图像分类和目标检测等任务。MLP-Mixer在CVPR 2021中被提出并于同年6月被公开发布。 传统的卷积神经网络(CNN)被广泛应用于计算机视觉领域。但是,随着计算机视觉任务的不断发展和增加,如何更好地处理不同类型和规模的数据集,成为了一个挑战。因此,MLP-Mixer尝试解决传统卷积神经网络中一些问题,例如参数共享、池化和批归一化等。 MLP-Mixer的主要思想是将传统的卷积操作替换为由若干密集连接层(全连接层)组成的mixing层。传统的卷积操作只考虑空间上的邻居关系,而mixing层考虑全局视角。mixing层通过对不同通道(channel)的信息进行交互,捕捉不同通道之间的全局相关性,提高了特征提取的效率和性能,同时降低卷积神经网络的复杂性。 此外,MLP-Mixer还引入了多层感知器池化层(MLP Pooling Layer)代替传统的最大池化层(Max Pooling Layer),使神经网络更加灵活和高效。MLP-Mixer考虑到了计算机视觉中不同尺度的特征信息,通过MLP池化层进行特征重组和降维,使得神经网络可以处理多尺度特征信息,提高特征提取的精度和速度。 总的来说,MLP-Mixer是一种全MLP的架构,其独特的mixing层和MLP Pooling层相比传统的卷积神经网络有着更好的性能和可扩展性。未来,MLP-Mixer有望在计算机视觉领域的各种任务中得到广泛的应用。
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

乄洛尘

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值