​AAAI 2024 | 首个多模态实体集扩展数据集MESED和多模态模型MultiExpan

论文介绍了MESED,一个大规模多模态实体集扩展数据集,用于评估多模态实体集扩展(MESE)任务。MESED包含14489个实体和434675个图像-句子对,具有细粒度语义类别。此外,提出了多模态模型MultiExpan,通过预训练任务如掩码实体预测、对比学习、聚类学习和动量蒸馏学习来学习多模态实体表示。实验表明,MultiExpan在ESE任务上优于单模态和基于视觉的模型。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

ebc187096efaef0c570e82f65e5933e3.gif

c16bd913015a46c0973463616839a5a3.png

论文题目:

MESED: A Multi-modal Entity Set Expansion Dataset with Fine-grained Semantic Classes and Hard Negative Entities

论文链接:

https://arxiv.org/abs/2307.14878

代码链接:

https://github.com/THUKElab/MESED

论文录用:

AAAI 2024 Main Technical Track

48e0abe6686b7d941538c15275b8f1ad.png

动机

实体集扩展(ESE)是一种信息检索任务,旨在通过使用给定的候选实体词汇表和语料库,从中发现属于同一语义类的新实体。这个任务的目标是通过利用已知的一组种子实体,从语料库中检索并扩展出属于相同语义类别的其他实体。这有助于建立更全面、更丰富的实体集,提供更深入的语义理解和关联性,使得 NLP 和 IR 等下游任务受益。

6175ab615805930fb22bddd8fb47e5d1.png

以扩展语义类 US Cities 为例,给定一组种子实体 {Washington D.C., Chicago, Los Angeles},ESE 尝试检索具有目标语义类的其他实体,如 New York, Houston。任务的目的是让扩展出的 Top K 个实体尽可能准确的属于 US Cities。

然而,传统的 ESE 方法基于单模态,通常信息有限且表征稀疏。单模态 ESE 方法面临着一些挑战,主要表现在以下几个方面:

  • 具有细粒度语义差异的负实体:与目标类属于同一粗粒度语义类的实体。在扩展语义类 US Cities 时,必然需要考虑到与目标类别具有相同父语义类(US Location)的实体,例如位于美国的 Florida 和 Texas。由于这些实体在文本上下文中具有相似语义,传统的单模态 ESE 方法往往难以在细节上进行区分。

  • 同义实体:实体的多种别名。ESE 模型可以很容易地理解常见别名,但无法理解上下文相关的别名,如缩写和昵称,因为确定它们的含义需要明确的文本提示。例如,SEA 仅在某些上下文中表示 Seattle,这可能导致检索的遗漏。

  • 一词多义实体:一词多义实体可能存在歧义,因为引用多个实体的文本提及共享相同的 token。由于预训练语言模型通过单词共现学习语义,因此包含相同 token 的实体本质上更接近。例如,从 Washington, D.C. 到 Washington State 的相似度大于到 Austin 等许多其他城市的距离,从而导致错误的结果。

  • 长尾实体:出现频率较低且相对不常见的实体,如晦涩的地名。这些实体由于出现次数有限,其在文本中的描述通常较为零散,且文本上下文匮乏,很难获取关于这些实体的详尽信息。由于文本描述的稀缺性,表示长尾实体往往过于稀疏,使得在检索时可能会错过相关的内容。

51dbd0691c7f9c88af7eea06120a543c.png

上述情况促使多模态实体集扩展(MESE)任务的出现。MESE 整合来自多种模式的信息来表示实体并将它们扩展到目标语义类,利用多个信息源来克服单模态方法的局限性。

遗憾的是,尽管存在多种多模态数据类型,但目前还没有基于细粒度语义类结构的多模态数据集可用于评估 MESE 的效果。为弥补这一差距,本文构建一个名为 MESED 的大规模人工标注的 MESE 数据集,其中包含来自维基百科的 14489 个实体和 434675 个图像-句子对。

此外,本文提出多模态基线模型 MultiExpan 并探索多种自我监督的预训练目标,用于多模态实体的表示学习。大量实验验证了 MultiExpan 与单模态/多模态模型相比的有效性。

<
基于多模态数据融合的负面情绪识别方法主要通过联合考虑多种模态的信息来提高情绪识别的可靠性稳健性。在多模态学习中,不同模态之间的信息被融合,以学习不同模态信息之间的关联。 然而,目前存在的基于深度学习的多模态情感识别方法通常需要大量的标记数据进行训练。由于情绪标签的生成困难不一致性,实际应用中缺乏足够的标记数据。因此,设计有效的无监督/弱监督学习少/零次学习算法可以提供潜在的解决方案。另外,对于多源域的情况,多模态领域自适应域泛化方法可以缓解域间差异的影响。 综上所述,基于多模态数据融合的负面情绪识别方法需要考虑多种模态的信息融合,并且可以利用无监督/弱监督学习少/零次学习来处理缺乏标记数据的情况。此外,多模态领域自适应域泛化方法可以帮助解决多源域情况下的域间差异问题。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *3* [多模态情感识别数据集模型(下载地址+最新综述2021.8)](https://blog.csdn.net/qq_44722174/article/details/120032522)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v92^chatsearchT3_1"}}] [.reference_item style="max-width: 50%"] - *2* [AAAI'22 | 预训练中的多模态信息融合与表征探究](https://blog.csdn.net/qq_27590277/article/details/123516419)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v92^chatsearchT3_1"}}] [.reference_item style="max-width: 50%"] [ .reference_list ]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值