【论文泛读】XFlow: Cross-Modal Deep Neural Networks for Audiovisual Classification-CSDN博客

本文链接：https://blog.csdn.net/weixin_42802447/article/details/119998543

论文题目：XFlow: Cross-Modal Deep Neural Networks for Audiovisual Classification
时间：2019
来源：IEEE TNNLS
论文链接：sci-hub才能打开
论文代码：点击跳转

摘要

研究目的

近年来，在解决多模态任务方面取得了许多进展，旨在学习比通过单一模态更强大的表示。在这种情况下，数据的某些方面可能特别有用——例如，跨模态的空间或时间域中的相关性——但应该明智地加以利用，以便从它们的全部预测潜力中受益。

解决方法

我们提出了两种具有多模式交叉连接的深度学习架构，允许多个特征提取器 (XFlow) 之间的数据流。我们的模型比不交换表示的模型获得更多可解释的特征并获得更好的性能，有效地利用了具有不同维度且不可平凡交换的音频和视觉数据之间的相关性。本文在两个基本方面改进了现有的多模态深度学习算法：
1）它提出了一种执行跨模态的新方法（在从单个模态学习特征之前）
2）扩展了先前提出的仅在不同模态之间传输信息的交叉连接处理兼容数据的流。

实验结果

举例说明通过连接学习的一些表示，我们分析了它们对提高辨别能力的贡献，并揭示了它们与唇读网络中间表示的兼容性。我们为研究社区提供了 Digits，这是一个新的数据集，包含从人们说数字 0-9 的视频中提取的三种数据类型。结果表明，当在 AVletters、CUAVE 和 Digits 数据集上进行评估时，两种跨模式架构都优于其基线（高达 11.5%），实现了最先进的结果。
关键词：视听、跨模态、深度学习、集成、机器学习、多模态。

介绍

单模态学习的有趣扩展包括“融合”多种模态（例如，声音、图像或文本）的深度模型，从而学习共享表示，在判别任务上优于以前的架构。然而，使用受限玻尔兹曼机 [1]、深度玻尔兹曼机 [2] 和深度卷积网络中基于相似性的损失函数 [3] 的现有模型中的交叉模态仅在学习单模态特征后才会发生。这可以防止单峰特征提取器利用其他模态中包含的任何信息。
本文介绍的工作专注于单峰特征提取器之间的直接信息交换，同时获得更多可解释的特征，因此可以直接利用模态之间的相关性。这种信息交换可能发生在不同维度的数据（例如，视听数据的一维/二维）之间，因此会带来一个非常重要的问题。
交叉连接先前由 Ve l i ˇ ckovi´ c 等人引入。 [4] 通过直接利用可用特征的异质性，在稀疏数据集上获得更好的性能（当可用样本数量有限时）。交叉连接通过允许在每个处理输入数据子集的神经网络的隐藏层之间交换信息来实现这一点。因此，每个组成网络将从这些子集之一中学习目标函数。通过减少输入的维度，对数据进行分区有助于每个超级层实现更好的预测性能。然而，每个网络都在处理与其他网络兼容的数据。
据我们所知，没有多模态学习算法能够以模块化和灵活的方式在学习流之间转换和交换特征。正如前一段所讨论的，交叉连接通过在组成网络之间传递特征图来有效提高稀疏数据集的分类性能。我们假设涉及多模态数据的预测任务可以从广义交叉连接方法中受益，主要是在不同模态对齐且高度相关的领域中——例如，在视听数据领域。我们提出的方法受到来自语音记录的音频和视频流中大量存在相关性的推动，这可以导致相应信号的更强联合表示。应该在特征提取阶段结束之前利用这些对齐，因此设计一种在学习流之间传递特征的通用方法似乎是一种自然的方法。
在本文中，我们提出了能够在一维和二维信号之间进行特征交换的交叉连接，并且原则上可以推广到任何维度的数据类型。我们验证了它们在显着提高视听分类任务的模型性能方面的有效性，表明跨模态特征交换有利于多模态架构的学习流。我们的贡献如下：

可推广（1-D?2-D 和 2-D?1-D）跨模态连接，利用音频和图像之间的相关性以及多模态的两个模型包含这些连接的语音分类。我们的模型在其相应的基线（没有跨模态连接的相同模型）上获得了显着的优势，这表明在特征提取过程中模态之间发生融合时可以学习更好的表示。为了说明巨大的改进，我们展示的结果表明这些模型在 AVletters 和 CUAVE 基准任务上取得了最先进的结果。我们在图 1 中说明了我们架构中的高级结构和数据流。
除了解决跨模态任务的改进方法之外，为了解决现有数据集中存在的问题，我们还构建了 Digits——一个新的、开放的数据集，其质量优于其他现有的基准多模态视听数据sets.1Digits 包含 10 个类别的 750 个示例，包含三种不同的数据类型（视频帧、音频系数和频谱图），可为研究人员提供各种可能性来验证他们未来的多模态机器学习方法。
最后，交叉连接的存在允许以更直接的方式分析不同输入模式中存在的相关性。作为我们贡献的最后一部分，我们直接分析这些表示，得出关于它们对手头分类任务的相互建设性的有用结论。这是解决深度学习模型遇到的可解释性问题的一步。