推荐一个最近刚出的比较全面的多模态综述:Multimodal Deep Learning

简介

标题:Multimodal Deep Learning
网址:https://arxiv.org/abs/2301.04856
收录于:arxiv 2023

  与其说这是一篇论文,倒不如说这是一本“书”。全文共 239 页,这其中还不包括封面、目录、参考文献等等的篇幅。

  本书是一个研讨会的成果,在这个研讨会中,我们回顾了多模态方法,并试图创建一个坚实的领域概述,从深度学习的两个子领域的 SOTA 方法开始。 此外,还讨论了将一种模态转换为另一种模态的建模框架,以及利用一种模态增强另一种模态的表示学习的模型。 为了总结第二部分,介绍了同时处理这两种模态的体系结构。 最后,我们还讨论了其他模态以及通用的多模态模型,它们能够在一个统一的体系结构中处理不同模式下的不同任务。 最后以一个有趣的应用(Generative Art)结束了这本小册子。

  本文对 多模态、CV 和 NLP 领域中一些任务的 数据集、模型、评价指标等等 都做了较详细的介绍和总结。主要还是以多模态方面的内容为主,但对于 CV 和 NLP 方面的阐述也不少。总的来说,是个非常不错的综述,内容较全面且详细。


文章结构


1 Introduction

  1.1 Introduction to Multimodal Deep Learning

  1.2 Outline of the Booklet

2 Introducing the modalities

  2.1 State-of-the-art in NLP

  2.2 State-of-the-art in Computer Vision

  2.3 Resources and Benchmarks for NLP, CV and multimodal tasks

3 Multimodal architectures

  3.1 Image2Text

  3.2 Text2Image

  3.3 Images supporting Language Models

  3.4 Text supporting Vision Models

  3.5 Models for both modalities

4 Further Topics

  4.1 Including Further Modalities

  4.2 Structured + Unstructured Data

  4.3 Multipurpose Models

  4.4 Generative Art

5 Conclusion

6 Epilogue

  6.1 New influential architectures

  6.2 Creating videos

7 Acknowledgements

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

friedrichor

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值