信息抽取是 NLP 领域长久以来最经典的研究方向之一。信息抽取的研究经历过了多模态抽取阶段,以及大一统的抽取阶段。在大语言模型和多模态时代,信息抽取的发展何去何从,目前社区仍在积极探索中。
近期,由哈工深和新加坡国立大学等团队联合提出一项全新的信息抽取基准任务:细粒度定位的统一多模态信息抽取 grounded MUIE,将三种信息抽取子任务(命名实体识别、关系抽取和事件抽取)在四种典型的模态(文本、图片、视频和音频)下统一起来,同时实现细粒度的跨模态目标定位。
为了实现 MUIE 任务,作者设计了一个多模态大模型 REAMO,实现 UIE 任务的多种模态,一次识别。同时构建了一个 MUIE 基准测试集以评估任务表现。该工作将会为下一阶段的信息抽取奠定一个重要基石。目前该工作被录用到 ACL 2024 (Finding)。
论文标题:
Recognizing Everything from All Modalities at Once: Grounded Multimodal Universal Information Extraction
论文地址:
https://arxiv.org/abs/2406.03701
项目地址:
https://haofei.vip/MUIE/
动机介绍
信息抽取(Information Extraction,IE)是自然语言处理领域的经典研究方向之一,旨在从自然语言中提取出结构化信息,包括命名实体识别(Named Entity Recognition, NER)、关系抽取(Relation Extraction, RE)和事件抽取(Event Extraction, EE)等多种子任务。
然而随着社交网络和多媒体技术的发展,文本不再是信息的唯一载体,海量的图片、音频和视频中同样蕴藏着丰富的信息,因此研究人员开始了多模态信息抽取(multimodal IE, MIE)的探索。
但是对于 MIE 研究存在以下不足:
首先,目前的 MIE 只是孤立地研究单一模态或特定模态的组合,而不能实现统一、高效的多模态信息抽取。
其次,大多数 MIE 的工作在多种模态之间存在“偏见”,仍然以文本为主要导向,而将其他模态置于从属地位,这表现在信息抽取的结果只包含文本,而忽略了对其他模态信息进行细粒度地提取和定位(fine-grained groundings)。但在现实生活中,每一种模态都应该蕴含着重要的信息。一个简单的例子是,即使是一个不识字的婴幼儿也能通过视觉、听觉识别出物体和事件。
最后,目前的 MIE 模型假设不同模态之间是互相关联的,并倾向于只抽取其中的对齐信息,而在实际场景中不同模态的信息可能相互关联,也有可能相互独立,MIE 应当能够从任意一种模态中灵活地抽取信息。