跨模态学习

最新推荐文章于 2025-03-05 11:23:50 发布

喜欢打酱油的老鸟

最新推荐文章于 2025-03-05 11:23:50 发布

阅读量6.3k

点赞数

文章标签：跨模态学习

原文链接：http://blog.itpub.net/69946223/viewspace-2671533/

版权

人工智能专栏收录该内容

4206 篇文章

订阅专栏

今天，我们生活在一个由大量不同模态内容（文本、图像、视频、音频、传感器数据、3D 等）构建而成的多媒体世界中，这些不同模态的内容在具体事件和应用中具有高度相关性。跨模态任务也越来越多，涉及多个模态的数据的交互，例如图像和视频的检索，字幕，视频摘要，文本到图像和视频的预测与合成，语言驱动的时空动作定位，以及视觉常识推理等等。

因此，跨模态学习日益引起了学术界和工业界的关注。 跨模态学习进行联合特征学习和跨模态关系建模，旨在有效地利用不同模态内容的相关性进行系统性能优化。对多模态内容的深入理解主要依赖于特征学习、实体识别、知识图谱、逻辑推理、语言表达等方面的多种技术。

多模态学习在多媒体领域并不新鲜。早在20世纪90年代中期，多媒体领域开始“起飞”之时，人们就开始研究多模态学习的问题。那么，为什么它最近再次成为研究热点呢？

通常，技术的崛起很大程度上取决于底层技术的发展和突破。多模态学习对于实际系统的性能优化至关重要，同时也是一个难题。它通常需要将不同模态数据嵌入到一个公共表示空间中，以便进行对齐、比较和融合。在早期，人们使用手工方法，根据先验知识和常识寻找一个良好的嵌入空间，但如何找到最佳嵌入空间是一个极其困难的问题。而现在，借助深度学习技术已经能够轻松寻找良好的嵌入空间，但是目前大多数深度学习方法依赖于大量有标注的数据，要想获得更好的性能，就必须拥有更多的有标注数据，这成为了一个主要瓶颈。在实践中，对大量数据进行标注并使训练收敛到最佳位置，其困难程度丝毫不亚于手工制作一个良好的嵌入空间。对于多模态学习更是如此，因为它需要同步标注对齐的多模态数据，例如图像和语音对齐。

2018 年，用于自然语言表示建模的 BERT 技术（即由变型器组成的双向编码器表示技术） [1] 的出现，为深度学习摆脱对有标注数据的依赖提供了一种新选择。理论上，基于 BERT 技术可以利用无限量的未标注数据作预训练，然后再利用针对特定任务的少量有标注数据进行微调，进而实现对不同任务（如问题解答和语言推理）的优化。此后，类似 BERT 的无监督预训练技术在许多自然语言处理任务中取得了突破性进展。

事实上，预训练技术在计算机视觉任务的有监督学习中早已得到广泛应用。例如，把为 ImageNet 分类任务预先训练的网络作为初始状态来训练其他视觉任务（如目标检测和语义分割）是非常流行的做法，并可以显著提高性能。当预训练技术在 BERT 中应用时发挥出了极高的应用效能，因为它可以借助无限量的无标注数据，以无监督的方式预训练好各种功能。这从根本上解决了大数据问题。

提供大量有标记多模态数据一直是解决多模态学习问题（如理解、转换和生成）的一个重大挑战，类似 BERT 的无监督预训练技术很好的解决了这一难题，并且可以显著提高系统整体性能。