笔记整理:徐雅静,浙江大学博士,研究方向为多模态知识图谱
链接:https://arxiv.org/pdf/2307.16210.pdf
1. 动机
现有的多模态实体对齐方法(MMEA)主要集中在多模态实体特征的融合范式上,而忽视了视觉图像普遍存在的缺失现象和内在模糊性所带来的挑战。在本文中,作者进一步分析了视觉模态不完备问题及对MMEA模型的影响,并在作者提出的MMEA-UMVM数据集上对最新的MMEA模型进行了基准测试。研究表明,面对模态的不完备,模型屈服于模态噪声的过拟合,并在高缺失模态率下表现出性能震荡或下降。为了解决这一挑战,作者提出了一种多模态实体对齐方法-UMAEA,该模型在减轻模态不完整的负面影响的同时实现了最先进的性能。
2. 贡献
本文的主要贡献有:
(1)模型局限性的识别:通过对MMEA- UMVM数据集的研究,揭示了现有MMEA模型在面对模态不完备时的局限性。本文确定了模型过度拟合模态中存在的噪声的趋势,以及在高缺失模态率下产生的性能振荡或下降。
(2)UMAEA:为了解决模态不完备带来的挑战,作者提出了UMAEA,一种强大的多模态实体对齐方法。UMAEA始终在MMEA-UMVM数据集中的所有97个基准分割中实现最先进的性能。它优于现有的基线,同时需要有限的参数和时间消耗。UMAEA有效地解决了与缺失和模糊视觉模式相关的不确定性。
3. 方法
总体框架如Figure 2所示,整个过程主要分为两个阶段。第一阶段的主要目标是在整个训练过程中减轻模态噪声和不完整性对对齐过程的影响。第二阶段旨在使模型能够主动完成缺失的模态信息。