图文实录｜UIE：基于统一结构生成的通用信息抽取

澜舟孟子开源社区

于 2022-11-17 17:46:34 发布

阅读量1.1k

点赞数

分类专栏：认知智能-NLP前沿观点文章标签：人工智能

本文链接：https://blog.csdn.net/langboat_mengzi/article/details/127908577

版权

第二期澜舟分享会在 8 月 20 日圆满落幕，本期主题为《金融 NLP 场景下，大模型技术应用趋势》，我们邀请到来自中科院软件所中文信息处理实验室研究员韩先培分享演讲“UIE：基于统一结构生成的通用信息抽取”。

错过直播的小伙伴可以通过 B 站“澜舟孟子开源社区”、微信视频号“澜舟科技”观看回放视频。另外，大家可以关注「澜舟科技」公众号，在后台回复关键词“0820”获取 PPT 资料。

本文根据中科院软件所中文信息处理实验室研究员韩先培在「澜舟 NLP 分享会」上的演讲整理。

背景

信息抽取，目的在于从各种信息源中抽取知识，并将其集成到现有的结构化知识库中。通常我们抽取的知识类别包含三种：实体、关系与事件。实体包括人名、地名、机构名等；关系包含如 CEO 的关系、亲子关系、部分整体关系等；事件通常与我们关心的事件有关，例如总统的选举、会议和恐怖袭击等。

信息抽取的难点

图 1：信息抽取难点

信息抽取的难点包括多样的抽取目标、相异的复杂结构与变化的领域需求等。

首先，与传统的 NLP 任务不一样，信息抽取的目标是非常多样的。我们可能需要抽取实体、关系、事件、情感等等。第二，信息抽取的目标具有复杂结构，如图 1 下方表格所示，第一行的实体是 Span 结构，即字符串结构，而关系是三元组的结构。在第二个例子中，关系是一个 Work-For 的关系，它表达的是 Steven 乔布斯和 Apple 之间的 Work-For 的关系。第三个例子就是一个复杂的框架结构。第三个难点是其变化的领域需求。例如，如果要抽取医疗领域的知识，通常抽取的对象是疾病、药物、治疗手段等。如果要做金融领域的相关应用，抽取的对象是公司、管理人员、财务事件等。如果要做舆情相关的应用，抽取的对象又会不同，需要抽取国家、政党和选举等。