图文实录|UIE:基于统一结构生成的通用信息抽取

第二期澜舟分享会在 8 月 20 日圆满落幕,本期主题为《金融 NLP 场景下,大模型技术应用趋势》,我们邀请到来自中科院软件所中文信息处理实验室研究员韩先培分享演讲“UIE:基于统一结构生成的通用信息抽取”。

错过直播的小伙伴可以通过 B 站“澜舟孟子开源社区”、微信视频号“澜舟科技”观看回放视频。另外,大家可以关注「澜舟科技」公众号,在后台回复关键词“0820”获取 PPT 资料。    

本文根据中科院软件所中文信息处理实验室研究员韩先培在「澜舟 NLP 分享会」上的演讲整理。

背景

信息抽取,目的在于从各种信息源中抽取知识,并将其集成到现有的结构化知识库中。通常我们抽取的知识类别包含三种:实体、关系与事件。实体包括人名、地名、机构名等;关系包含如 CEO 的关系、亲子关系、部分整体关系等;事件通常与我们关心的事件有关,例如总统的选举、会议和恐怖袭击等。

信息抽取的难点

图 1:信息抽取难点

信息抽取的难点包括多样的抽取目标、相异的复杂结构与变化的领域需求等。

首先,与传统的 NLP 任务不一样,信息抽取的目标是非常多样的。我们可能需要抽取实体、关系、事件、情感等等。第二,信息抽取的目标具有复杂结构,如图 1 下方表格所示,第一行的实体是 Span 结构,即字符串结构,而关系是三元组的结构。在第二个例子中,关系是一个 Work-For 的关系,它表达的是 Steven 乔布斯和 Apple 之间的 Work-For 的关系。第三个例子就是一个复杂的框架结构。第三个难点是其变化的领域需求。例如,如果要抽取医疗领域的知识,通常抽取的对象是疾病、药物、治疗手段等。如果要做金融领域的相关应用,抽取的对象是公司、管理人员、财务事件等。如果要做舆情相关的应用,抽取的对象又会不同,需要抽取国家、政党和选举等。

信息抽取现状

首先,根据任务不同,会有任务特定的架构。例如,如果做命名实体识别,会使用序列标注模型。如果做关系抽取,会使用关系分类等模型。这就导致,要做信息抽取模型,就需要有专业人士进行调优,根据情况选择序列标注模型、 span 的分类模型或者阅读理解模型等。

第二,由于信息抽取任务的独立性,我们会训练非常多相互独立的模型。不同任务的信息抽取模型被单个训练,相互之间没有共享。最后导致的结果是一个公司可能需要管理成百上千个信息抽取的模型。

最后,信息抽取需要极高的构建成本。正如前文所说,做不同领域需求,需要训练不同的信息抽取模型,还需要专家设计特定的 schema 并构建训练的资源,如标注语料、收集词典等。

总的来说,多样的抽取任务,各种各样的监督信号,各种各样的模型架构和各种各样不同的知识领域,导致信息抽取目前的现状是:信息抽取是一个具有复杂架构,具有爆炸模型,成本还极高的过程。

信息抽取研究目标:Universal IE

针对上述问题,我们希望构建一个通用的信息抽取模型。因此,我们有以下三个研究目标:

图 2:三个研究目标

首先,我们希望能够使用一个单一的架构来解决各种各样的信息抽取任务。正如图 2 右侧表格所示,我们希望把复杂的实体抽取、关系抽取、事件抽取和情感识别的所有任务,最终都能使用统一的架构解决。

第二,我们希望能够有一种按需解码机制,来控制特定的任务、场景和设定下的抽取

  • 0
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值