哈工深、NUS等联合提出全新信息抽取基准任务:细粒度定位的统一多模态信息抽取...

fb12f31f591e677ae20d3c6454f135e6.gif

00cc8159cb5c202126666576f1a3bf42.png

信息抽取是 NLP 领域长久以来最经典的研究方向之一。信息抽取的研究经历过了多模态抽取阶段,以及大一统的抽取阶段。在大语言模型和多模态时代,信息抽取的发展何去何从,目前社区仍在积极探索中。

近期,由哈工深和新加坡国立大学等团队联合提出一项全新的信息抽取基准任务:细粒度定位的统一多模态信息抽取 grounded MUIE,将三种信息抽取子任务(命名实体识别、关系抽取和事件抽取)在四种典型的模态(文本、图片、视频和音频)下统一起来,同时实现细粒度的跨模态目标定位。

为了实现 MUIE 任务,作者设计了一个多模态大模型 REAMO,实现 UIE 任务的多种模态,一次识别。同时构建了一个 MUIE 基准测试集以评估任务表现。该工作将会为下一阶段的信息抽取奠定一个重要基石。目前该工作被录用到 ACL 2024 (Finding)。

9429edb33841e0df0a42dc94da01e979.png

论文标题:

Recognizing Everything from All Modalities at Once: Grounded Multimodal Universal Information Extraction

论文地址:

https://arxiv.org/abs/2406.03701

项目地址:

https://haofei.vip/MUIE/

42206d66490170c649f603c6782645b6.png

动机介绍

信息抽取(Information Extraction,IE)是自然语言处理领域的经典研究方向之一,旨在从自然语言中提取出结构化信息,包括命名实体识别(Named Entity Recognition, NER)、关系抽取(Relation Extraction, RE)和事件抽取(Event Extraction, EE)等多种子任务。 

然而随着社交网络和多媒体技术的发展,文本不再是信息的唯一载体,海量的图片、音频和视频中同样蕴藏着丰富的信息,因此研究人员开始了多模态信息抽取(multimodal IE, MIE)的探索。 

但是对于 MIE 研究存在以下不足:

首先,目前的 MIE 只是孤立地研究单一模态或特定模态的组合,而不能实现统一、高效的多模态信息抽取。

其次,大多数 MIE 的工作在多种模态之间存在“偏见”,仍然以文本为主要导向,而将其他模态置于从属地位,这表现在信息抽取的结果只包含文本,而忽略了对其他模态信息进行细粒度地提取和定位(fine-grained groundings)。但在现实生活中,每一种模态都应该蕴含着重要的信息。一个简单的例子是,即使是一个不识字的婴幼儿也能通过视觉、听觉识别出物体和事件。

最后,目前的 MIE 模型假设不同模态之间是互相关联的,并倾向于只抽取其中的对齐信息,而在实际场景中不同模态的信息可能相互关联,也有可能相互独立,MIE 应当能够从任意一种模态中灵活地抽取信息。

02c018081c4e67aee8f054294c56a831.png

因此本文首次提出了一种细粒度定位的统一多模态信息抽取(grounded Multimodal Universal Information Extraction,grounded MUIE),尝试将三种信息抽取子任务(命名实体识别、关系抽取和事件抽取)在四种典型的模态(文本、图片、视频和音频)下统一起来,同时实现细粒度的跨模态目标定位。 

与此同时,本工作提出一个配套的 grounded MUIE 基准多模态大模型 REAMO,在对多种模态进行信息抽取的同时灵活地给出静态或动态的细粒度目标定位。REAMO 模型主要由三个模块组成:多模态编码器,LLM 推理器和可细粒度定位的 MUIE 解码器,通过一系列指令微调策略使得 REAMO 具备从各种模态中实现细粒度信息抽取各个子任务的强大能力。 

此外,为了更好地评估提出的 REAMO 模型的性能表现,作者在九个包含不同模态和子任务的信息抽取数据集的基础上,扩展了模态组合类型,通过模态迁移方法,标注构建了六个全新类型的多模态数据集,为 MUIE 任务提供了一个全面的基准测试集。

fb82cd40a79960968dfcc1f145fa4147.png

任务定义

细粒度定位的统一多模态信息抽取(grounded MUIE)是一个全新的任务,旨在将 NER,RE,EE 等各种信息抽取任务统一起来,支持各种模态(包括文本、图片、音频、视频)的输入,并输出结构化的 UIE 结果以及细粒度的多模态目标定位。

如图 1 所示,grounded MUIE 不仅能够从任意模态的组合输入中抽取出结构化的实体、关系、事件信息,而且能够细粒度地分割出对应的实体图像、音频片段,以及对视频中的文本和音频事件信息进行动态追踪。

9a380edcf140a17df7ded6d27b92a3c7.png

▲ 图1. 细粒度定位的统一多模态信息抽取 (grounded MUIE) 示例

38031e0820d22011cd84149c274f0a29.png

REAMO模型架构与微调策略

如图 2 所示,作者为 grounded MUIE 任务设计了 REAMO 多模态大模型,REAMO 主要由三个模块组成:多模态编码器,LLM 推理器和细粒度定位 MUIE 解码器。

96199f73c47cff470363583cefb5994a.png

▲ 图2. REAMO 多模态大模型架构图

3.1 多模态编码器

REAMO 作为多模态大模型,可以接收文本、图片、音频、视频任意组合的模态输入,因此作者使用 ImageBind 对不同模态输入进行编码,然后对图像编码器、视频编码器和音频编码器网络分别设计了投影层将不同模态表征统一映射到 LLM 可以理解的对齐语义空间中。

3.2 LLM推理器

LLM 推理器作为 REAMO 的中心单元,使用 Vicuna 作为 LLM 底座,根据提示词对输入内容进行语义理解和推理决策。LLM 推理器不仅生成 UIE 结构化文本抽取结果,同时负责生成 <Module> 和 <Instruction>,用于为下游解码模块提供激活信号,如图 3 所示。

2f873e5451ea09519c107dcab106b3e8.png

▲ 图3. LLM推理器功能示例

3.3 Grounded MUIE解码器

为了实现细粒度的 groundings 信息识别,MUIE 解码器集成了高性能 SEEEM 模块用于图像分割和视频追踪,SHAS 模块用于音频分割。根据上游传递的元响应信号,激活对应的解码器模块实现 groundings 识别。

3.4 Grounded MUIE微调策略

作者采用了多种微调策略使 REAMO 具备强大的 grounded 跨模态信息抽取能力:

  • UIE 指令微调:使用 UIE 指令微调数据集对 LLM 进行 LoRA 高效微调,使模型具备基本的文本信息抽取能力。

  • 多模态对齐学习:固定 ImageBind 和 LLM 参数,对投影层进行‘X-to-text’微调,实现各种模态与文本的对齐学习。

  • 跨模态细粒度定位微调:通过以上步骤, REAMO 模型已经学习到粗粒度的多模态理解知识,为了实现精确多模态 groundings,使用包含 groundings 标注的‘X-to-text’数据再次微调,使 LLM 获取更强的 grounding 感知理解能力。

  • 基于调用的元响应微调:基于现有的标注数据精心设计了多种指令模板,通过提示 GPT-4 生成对应的指令微调数据,进行元响应微调,使得作为中间推理与决策核心的 LLM 推理器能够准确地生成元响应下游激活信号。

51c905e1af299a87a0cba91b8fd9a427.png

grounded MUIE基准测试集

由于首次提出该任务,社区缺少一个全面的评估测试集。所以作者在现有的九个包含不同模态和子任务的信息抽取数据集的基础上,通过预处理和模态迁移方法(如语音合成技术、语音识别技术),构建了六个全新的多模态信息抽取基准测试集,丰富扩展了信息抽取任务的模态组合类型,标注了 3000 条覆盖 NER, RE, EE 子任务的高质量 MUIE 测试数据。

此外,作者重新标注了组合模态数据集以保证基准测试集中既包含多模态关联信息,也包含特有模态信息,并且还包含了模态对齐和非对齐的情况,从而更加符合实际应用场景。

35b2e57ef563f989231008d9531a6c53.png

▲ 图4. Grounded MUIE 基准测试集

27da3d9f522ad5ad20d25c096a067d81.png

实验和分析

5.1 Zero-shot MUIE实验结果

图 5,图 6,图 7 分别展示了图片、音频、视频单一模态与文本混合双模态下 zero-shot 实验性能对比,图 8 展示了更加复杂的模态混合场景下的实验性能,综合多种实验设置结果可以得出以下结论:

1)端到端模型由于缓解了误差传播问题,比起管线模型展示出更高的性能;


2)REAMO 模型对比其他模型在各种模态和子任务场景下均展现出最佳性能;

3)单一模态相比文本混合双模态展现出显著的性能下降;

4)REAMO 在复杂的多种模态混合场景下相比其他模型提升更为明显。

428fd928439af95520795385ddbd8134.png

▲ 图5. 图像相关MUIE数据集实验结果

9402c36d92e54984d5028d4000153bcd.png

▲ 图6. 音频相关MUIE数据集实验结果

64ea1f0aa7746dfeaeea571ad3f6cfa3.png

▲ 图7. 视频相关MUIE数据集实验结果

dfe5a76d2b63f6eed71e93b415dd7beb.png

▲ 图8. 多种模态混合场景下的实验结果

5.2 模态对齐 vs 非对齐

如前文所述,目前的 MIE 模型假设不同模态之间是互相关联的,并倾向于只抽取其中的对齐信息。作者将数据集划分为两类:模态对齐与模态费对齐,并分别进行了实验测试。图 9 展示了不同模型在模态对齐与非对齐两种场景下的对比试验,可以发现 REAMO 打败了其他基线模型,并在模态非对齐场景下提升尤其显著。

0069112e62c3298dbbc1beab630bc257.png

▲ 图9. 模态对齐与模态非对齐MUIE性能差异

5.3 实体数量的影响

图 10 展示了输入内容中实体数量对 MUIE 性能的影响,可以发现,在文本+图片/文本+音频/文本+视频三种不同场景下,随着输入的实体数量增多,其他模型退化明显,而 REAMO 能够保持相对较优的性能,展示出更好的鲁棒性。

e28191e1a7cf2be49f7a74a62bc1561d.png

▲ 图10. 实体数量的影响

5.4 案例分析

图 11,图 12,图 13 分别给出了 NER,RE,EE 三种不同任务下的 MUIE 系统的可视化实例。在各种场景下,REAMO 不仅给出正确的信息抽取结果,同时可以根据根据提示灵活地提供细粒度的目标定位,具备较好的可解释性。

fa697922373ffe8fa7140f169c29b260.png

▲ 图11. NER 实例

e859401abf8c6b8c2dbe4721717a0f98.png

▲ 图12. RE 实例

4527b75d9f46990c858db197bdb1abe8.png

▲ 图13. EE 实例

9f650045fda7bf7c89be2227f1e1602c.png

错误分析和未来研究方向

本文首次提出一个全新的 grounded MUIE 任务。未来后续研究可以从各个角度进行探索。作者在实验中对提出的模型进行了错误分析,总结了几种重要的错误类型。

1. 内容重复提取:当文本和其他模态的信息不严格一致时,REAMO 模型可能会抽取出含义相似但不同的实体、关系、事件等。所以如何保证不同模态信息抽取的一致性是一个需要思考的方面。

2. 信息提取不完整:信息提取的结果不完整,例如命名实体识别不完整,无法识别涉及深入推理的关系,或事件论元的识别不完整。

3. 错误定位:REAMO 模型可能输出实体或论元,但未能成功定位相应的图像、视频或音频中的对应区域。

4. 错误定位匹配:实体或论元并不总是与定位结果匹配。例如,当文本提到“奥巴马”和“特朗普”,而图像描绘了这两个人时,图像对象分割器未能确定哪个是“奥巴马”和“特朗普”,导致错误的定位匹配。

5. 过度定位/定位幻觉:所提出的 REAMO 模型可能生成多个指令并在图像、视频或音频中进行定位,但视觉或听觉内容中实际上不存在对应的区域。

6. 错误传播:REAMO 模型本质上还是一个流水线式的运作系统,首先产生一个元响应,然后用它来调用功能模块,这种 pipeline 模式可能会引入了错误传播,即如果元响应的内容存在问题,随后模块的输出将是错误的。为了解决这个问题,可以考虑开发更先进的端到端多模态大语言模型。

🌟本文内容已获论文原作者独家授权发布,如需转载请联系PaperWeekly工作人员微信:pwbot02,添加时请备注「转载」

更多阅读

aadc3db425ea8bf635bc5272c1179b9c.png

dbf9bfe01b31cabcfcb451e679fa0c04.png

f1caa8b9efc621b56a874718e8211c1b.png

895b34b44048026323465751631a3209.gif

#投 稿 通 道#

 让你的文字被更多人看到 

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

55e1a3376d77c81f0bd020467ccacb13.png

△长按添加PaperWeekly小编

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

·

·

9ab01ddb2a666d32f5250686db464332.jpeg

### 回答1: 多模态信息抽取是指从多种不同数据形式中自动抽取和提取信息。这些数据形式可以是图像、文本、语音、视频和其他类型的数据。2022/2023年的多模态信息抽取将会突破目前的技术瓶颈,实现更高效、更准确的信息提取,以满足日益增长的人工智能应用需求。 在未来的多模态信息抽取的应用中,将会出现更多基于人工智能技术的语义理解、机器翻译、图像分析、语音识别、自然语言处理、情感分析等领域的研究和应用。这些应用将会更加智能化、便捷化、高效化,能够更好地解决人类面临的各种问题。例如,在医疗领域中,通过多模态信息抽取技术可以更精准地诊断疾病,提高治疗效果和生存率。在智慧交通领域中,多模态信息抽取技术可以更准确地掌握路况,提高交通安全和效率。 然而,实现多模态信息抽取的过程中还面临着一些瓶颈,例如数据稀缺性、多模态数据不同步、特征融合难度等问题。未来的研究方向将会围绕如何更好地融合多种数据形式,提高数据的可靠性和精准度,提高多模态信息抽取的整体性能。 总之,未来的多模态信息抽取将会更加便捷、高效、准确地解决人类面临的各种问题。多模态信息抽取的发展将会继续推动人工智能技术的进步和应用。 ### 回答2: 2022/2023多模态信息抽取是指将来人工智能领域的一项新技术。随着信息的不断增长和多样化,如何从大量的数据中提取有价值的信息已经成为业界的一个重要难点。传统的信息抽取技术在处理大规模多模态数据时容易出现信息传递不完整,信息重复等问题,这严重阻碍了人工智能技术在现实生活中的应用。 为了解决这个难题,科研人员开始探索多模态信息抽取的技术。所谓多模态,是指同一类信息可以通过多种传感器或方式获得,比如图像、声音、文本等。多模态信息抽取的核心思想是将不同类型的信息进行融合,增加对大数据的理解能力和整体把握能力。 在实际应用时,多模态信息抽取技术可以应用到如下领域:医疗健康、智能安防、金融等。比如,在医疗领域中,多模态信息抽取技术可以利用医疗图像、生理数据、病历记录等多种数据源,全面分析患者的病情,提供精准治疗方案。在智能安防领域中,多模态技术可以通过视频图像、声音、人脸识别等多种手段,进行智能监控,并及时报警快速处置。 总之,2022/2023多模态信息抽取技术的发展将提高智能技术的整体效能,为科技创新、社会发展提供新契机。同时,随着技术的不断优化,多模态信息抽取技术的应用场景和范围也将不断拓展。 ### 回答3: 2022/2023多模态信息抽取是指同时从多种不同的文本、图片、视频、语音等媒介中提取信息的过程。随着信息技术的不断发展和人们对各个方面信息需求的不断增加,多模态信息抽取成为了提高信息处理效率和准确性的一种有效手段。在2022/2023年,多模态信息抽取技术将会继续得到发展和应用。 多模态信息抽取技术的目的是将多种不同类型的信息汇聚起来,进行有效的分类、解析和提取,以便更好地理解这些信息的含义和意义。这项技术的应用范围非常广泛,包括金融、医疗、教育、舆情监测、交通管理等领域。在金融领域,多模态信息抽取可以对市场趋势、金融分析等方面做出更加准确的判断;在医疗领域,多模态信息抽取可以对病例资料、医疗图像等进行分析,提高诊断准确率;在教育领域,多模态信息抽取可以对学生学习状态和课堂表现进行分析,为教学提供更具参考性的数据支持。 随着深度学习和自然语言处理技术的发展,多模态信息抽取的研究和应用也将不断深入。未来,多模态信息抽取技术将会实现更加高效、高准确的信息处理和提取,为各个领域的发展和智能化进程注入更大的活力。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值