多模态信息抽取之多模态ner发展综述

多模态信息提取是多模态学习与信息提取技术的结合。传统上,IE的研究侧重于从纯文本中提取实体和关系,其中信息主要以自然语言文本的格式表示。然而,互联网的快速发展导致了大量的数据,包括文本、音频、图像、视频和其他形式。互联网上的多模态信息,在某些场景下,只对文本数据信息进行提取,可能会造成数据信息的丢失;因此,研究人员开始讨论如何从多模态数据中提取所需的信息。现有的工作已经证明,添加视觉模态信息可以在工作中发挥重要作用,如知识图补全和三元组分类,多源信息显示出在知识图上推理的潜力。“模态”的定义很广泛,可以直观地理解为不同类型的多媒体数据或更细粒度的概念。区分模式的关键点可以理解为数据是否异质。例如,对于演员,可以在互联网上找到相关的信息,包括文字介绍、个人图片、影视作品、影视音频。这四种数据分别对应文本、图片、视频和声音,可以理解为对象的多模态数据。在多模态数据环境中,跨模态数据既有模态特征又有语义共性。多模态IE是多模态学习与IE技术的结合。目前,已有的单模态表示学习方法取得了良好的效果,为多模态表示的获取奠定了基础。深度学习的发展也为多模态研究提供了便利。下面的一个小节讨论了多模态命名实体识别。

传统的命名实体识别只考虑文本信息,忽略了其他模式的集成对命名实体识别的影响。针对利用单模态信息识别命名实体的不足,学者们开始研究结合多模态信息的命名实体识别任务。大多数多模态方法利用注意机制提取视觉信息,而忽略了文本与图像之间是否存在相关性,与文本无关的视觉信息会对多模态模型的学习产生不确定性甚至负面影响。Sun等人提出了基于文本-图像关系传播的多模态BERT模型(RP-BERT)的多模态BERT模型,用于文本-图像关系分类(TRC),并在MNER上训练该模型RP-BERT。该模型在TRC和MNER中都获得了最高的F1分数。实验结果表明,文本-图像关系的传播能够减少无关图像的干扰,RP-BERT能够更好地利用基于文本-图像关系的视觉信息。Zhang等人构建并获得了一个包含来自Twitter的多模式推文的大规模标记数据集。为了利用视觉信息识别多模式推文中的命名实体,Zhang提出了一种链接文本和视觉信息的自适应共注意网络(adaptive co-attention network, ACN)。在隐层和CRF层之间插入自适应共注意网络层,实现文本和图片的相互注意;因此,通过引入门控多模态融合模块来决定何时依赖视觉信息,每个单词都获得了多模态表示。同时还采用了滤波门模块对视觉信息产生的噪声进行滤波。该模型引入基于CNN + BiLSTM + CRF的图像信息,在构建的数据集上添加ACN模块,准确率为72.75%,召回率为68.74%,F1为70.79%,优于CNN + BiLSTM + CRF。一些MNER模型没有充分利用不同模态语义单元之间的细粒度语义对应,这可能会优化多模态表示学习。Zhang等人提出了一种用于MNER的统一多模态图融合(UMGF)方法。首先使用统一的多模态图来表示输入的句子和图像。在合成过程中,每个目标图像充当一个图像节点。每个单词充当一个文本节点。该图捕获了模态语义单位(单词和视觉对象)之间的各种语义关系。在堆叠多个基于图的多模态融合层后,迭代进行语义交互以学习节点表示。使用图神经网络与两个模态单元交互,进一步使用了跨模态门控的双流版本。最后通过线性层和CRF编码层得到最终输出。在两个基准数据集上的实验中,该模型的F1值高于其他方法的F1值,UMGF对多模态命名实体识别具有较好的效果。

目前,多模态命名实体识别已经取得了很大的进展,但大多数研究都集中在英语上,而以往的中文命名实体识别研究大多集中在单模态文本上。Sui等人从文本和声学两方面研究了中文多模态命名实体识别,构建了包含文本和声学内容的大规模人工标注多模态命名实体识别数据(CNERTA)。基于该数据集,建立了BiLSTM-CRF和BERT-CRF等一系列可使用文本模式或多模式特征的基线模型。此外,通过引入语音-文本对齐辅助任务,提出了一种简单的多模态多任务模型(M3T)T)来捕获文本和声音模式之间的自然单调对齐。在M3T模型中,声学信息通过跨模态注意模块(CMA)集成到文本表示中。通过大量的实验,作者证明了引入声学模式可以使中文命名实体识别模型受益。

然而,现有的MNER和MRE方法在将不相关的目标图像合并到文本中时往往存在误差敏感的问题。为了解决这些问题,Chen, X.等人提出了一种新的分层视觉前缀融合网络(HVPNeT),用于视觉增强的实体和关系提取,旨在实现更有效和更健壮的性能。具体而言,本文将视觉表示作为可插入的视觉前缀来指导错误不敏感预测决策的文本表示。本文进一步提出了一种动态门控聚合策略,将分层的多尺度视觉特征作为融合的视觉前缀。现有的MNER方法容易受到一些隐式交互作用的影响,容易忽略所涉及的重要特征。为了解决这一问题,X. Wang等人提出通过识别和突出一些任务突出特征来精炼跨模态注意。每个特征的显著性根据其与从外部知识库派生的扩展实体标签词的相关性来衡量。本文进一步提出了一种基于端到端Transformer的MNER框架,该框架的体系结构更加简洁,性能也比以前的方法更好。

 代码地址: https://github.com/zjunlp/HVPNeT

优点:提高了模态信息的命名实体识别效果,多模态实体链接技术有助于实体对齐。

缺点:需要改进模态融合,需要加强对容易混淆的实体的区分

  • 1
    点赞
  • 18
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
### 回答1: 多模态信息抽取是指从多种不同数据形式中自动抽取和提取信息。这些数据形式可以是图像、文本、语音、视频和其他类型的数据。2022/2023年的多模态信息抽取将会突破目前的技术瓶颈,实现更高效、更准确的信息提取,以满足日益增长的人工智能应用需求。 在未来的多模态信息抽取的应用中,将会出现更多基于人工智能技术的语义理解、机器翻译、图像分析、语音识别、自然语言处理、情感分析等领域的研究和应用。这些应用将会更加智能化、便捷化、高效化,能够更好地解决人类面临的各种问题。例如,在医疗领域中,通过多模态信息抽取技术可以更精准地诊断疾病,提高治疗效果和生存率。在智慧交通领域中,多模态信息抽取技术可以更准确地掌握路况,提高交通安全和效率。 然而,实现多模态信息抽取的过程中还面临着一些瓶颈,例如数据稀缺性、多模态数据不同步、特征融合难度等问题。未来的研究方向将会围绕如何更好地融合多种数据形式,提高数据的可靠性和精准度,提高多模态信息抽取的整体性能。 总之,未来的多模态信息抽取将会更加便捷、高效、准确地解决人类面临的各种问题。多模态信息抽取发展将会继续推动人工智能技术的进步和应用。 ### 回答2: 2022/2023多模态信息抽取是指将来人工智能领域的一项新技术。随着信息的不断增长和多样化,如何从大量的数据中提取有价值的信息已经成为业界的一个重要难点。传统的信息抽取技术在处理大规模多模态数据时容易出现信息传递不完整,信息重复等问题,这严重阻碍了人工智能技术在现实生活中的应用。 为了解决这个难题,科研人员开始探索多模态信息抽取的技术。所谓多模态,是指同一类信息可以通过多种传感器或方式获得,比如图像、声音、文本等。多模态信息抽取的核心思想是将不同类型的信息进行融合,增加对大数据的理解能力和整体把握能力。 在实际应用时,多模态信息抽取技术可以应用到如下领域:医疗健康、智能安防、金融等。比如,在医疗领域中,多模态信息抽取技术可以利用医疗图像、生理数据、病历记录等多种数据源,全面分析患者的病情,提供精准治疗方案。在智能安防领域中,多模态技术可以通过视频图像、声音、人脸识别等多种手段,进行智能监控,并及时报警快速处置。 总之,2022/2023多模态信息抽取技术的发展将提高智能技术的整体效能,为科技创新、社会发展提供新契机。同时,随着技术的不断优化,多模态信息抽取技术的应用场景和范围也将不断拓展。 ### 回答3: 2022/2023多模态信息抽取是指同时从多种不同的文本、图片、视频、语音等媒介中提取信息的过程。随着信息技术的不断发展和人们对各个方面信息需求的不断增加,多模态信息抽取成为了提高信息处理效率和准确性的一种有效手段。在2022/2023年,多模态信息抽取技术将会继续得到发展和应用。 多模态信息抽取技术的目的是将多种不同类型的信息汇聚起来,进行有效的分类、解析和提取,以便更好地理解这些信息的含义和意义。这项技术的应用范围非常广泛,包括金融、医疗、教育、舆情监测、交通管理等领域。在金融领域,多模态信息抽取可以对市场趋势、金融分析等方面做出更加准确的判断;在医疗领域,多模态信息抽取可以对病例资料、医疗图像等进行分析,提高诊断准确率;在教育领域,多模态信息抽取可以对学生学习状态和课堂表现进行分析,为教学提供更具参考性的数据支持。 随着深度学习和自然语言处理技术的发展多模态信息抽取的研究和应用也将不断深入。未来,多模态信息抽取技术将会实现更加高效、高准确的信息处理和提取,为各个领域的发展和智能化进程注入更大的活力。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

samoyan

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值