《知识图谱》赵军 阅读笔记(六)——第六章 关系抽取

本文详细介绍了关系抽取的任务定义,包括二元关系抽取和开放域关系抽取,探讨了任务的难点,如关系的多词汇表达、上下文变化等,并介绍了基于模板和机器学习的关系抽取方法,包括基于特征工程、核函数和神经网络的方法。此外,还提到了开放域关系抽取的挑战,如无需预定义关系类别。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >


  前面的章节已经介绍了实体识别和消歧的任务及其方法。而实体之间的关系是知识图谱中不可或缺的部分,不同的关系将独立的实体连接在一起编织成知识图谱。如何从结构化或者非结构化文本中识别出实体之间的关系是知识图谱构建的核心任务之一。同时,关系抽取也是文本内容理解的重要支撑技术之一,能够将文本分析从语言层面提升到内容层面,对于回答系统、智能客服、聊天机器人、语义搜索等应用都十分重要。因此,这一任务得到了学术界和工业界的广泛关注,正成为越来越热门的研究课题。

6.1 任务概述

6.1.1 任务定义

  关系定义为两个或多个实体之间的某种联系,关系抽取就是自动识别实体之间具有的某种语义关系。根据参与实体的多少可以分为二元关系抽取和多无关系抽取,其中二元关系指两个实体间的关系,多元关系指三个及以上实体间的关系。二元关系抽取是其他关系推取研究的基础,因此本章主要介绍二元关系抽取,关注两个实体间的语义关系,得到 ( a r g 1 , r e l a t i o n , a r g 2 ) (arg_1,relation,arg_2) (arg1,relation,arg2)三元组,其中 a r g 1 arg_1 arg1 a r g 2 arg_2 arg2表示两个实体, r e l a t i o n relation relation表示实体间的语义关系。给定两个实体中国和北京,通过二元关系抽取得到它们之间的语义关系是首都,就能抽取出三元组(中国,首都,北京)。

6.1.2 任务分类

  根据处理数据源的不同,关系抽取可以分为以下三种:

  1. 面向结构化文本的关系抽取。结构化文本包括表格数据、XML文档以及数据库数据等,这类数据通常具有良好的布局结构,因此抽取比较容易,可针对特定网站编写特定模板进行抽取,抽取准确率也比较高。
  2. 面向非结构化文本的关系抽取。非结构化文本指的就是纯文本,例如,从句子姚明1981年出生于中国上海这句话中,我们希望识别出姚明和上海之间是出生地这一语义关系。但是,由于自然语言表达的多样性、灵活性,实体关系在文本中一般找不到明确的标识。相对来说,从非结构化文本中抽取关系的准确率较低,需要自然语言处理技术的支持。
  3. 面向半结构化文本的关系抽取。半结构化文本介于结构化和非结构化之间,数据的分布或布局具有一定的规律,但通常这种规律的类型是多样的,也是隐含的、或者说没有显式的标识,难以用人工的方法穷举各种类型的模板,需要对模板进行自动的学习。目前,针对模板相对连续的半结构文本,现有的技术也能达到较高的抽取准确率。

  同时,根据抽取文本的范围不园,关系抽取可以分为句子级关系抽取和语料(篇章)级关系抽取。

  1. 句子级关系抽取,也称为句子级关系分类,即从一个句子中判别两个实体间是何种语义关系。如上面的例子所示,我们需要从当前的这句话中识别出姚明和上海之间是出生地的关系。
  2. 语料(篇章)级关系抽取,该任务旨在判别两个实体之间是否具有其语义关系,而不必限定两个目标实体所出现的上下文。也就是只需要判别姚明和上海之间有出生地的关系,而并不必关注具体是哪一个句子表达了这两个实体有这样的关系。这一任务对于知识图谱构建十分重要,因为在知识图谱构建过程中,我们需要分析图谱中两个节点(实体)之间边上的语义标签(关系)而并不用特别关注它们所出现的具体文本。

  另外,根据所抽取领域的划分,关系抽取又可以分为限定域关系抽取和开放域关系抽取:

  1. 限定域关系抽抽取。是指在一个或者多个限定的领域内对实体间的语义关系进行抽取,通常情况下,由于是限定域,语义关系也是预设好的有限个类别。对于这一任务,可以采用基于监督学习的方法来处理,即针对每个关系类别标注充足的训练数据,然后设计关系抽取的模型,进行模型训练,最后利用训练好的模型抽取关系。但是在面对大规模的知识图谱构建时,人工标注的训练语料远远不够,所以很多工作利用弱监督学习解决训练语料的标注问题。
  2. 开放域关系抽取。和限定域关系抽取,开放域抽取并不限定关系的类别,依据模型对于自然语言句子理解的结果从开放式抽取关系三元组。

6.1.3 任务难点

  关系抽取是信息抽取中的一个关键环节和难点问题,相比较于实体识别和实体消歧任务而言,关系抽取任务更加复杂,其难点主要表现在下面几个方面:

  1. 一个关系可以具有多种不同的词汇表达表达方式。例如句子特朗普是美国总统和句子特朗普赢得了美国大选都可以说明特朗普和美国总统具有职位的关系。
  2. 同一个短话或者词可能表达不同的关系。特别是在不同的上下文中表示不同的关系。
  3. 同一对实体之间可能有不止一种关系。例如一个人的出生地和居住地可能是同一个城市。
  4. 关系抽取不仅涉及到两个或者两个以上的实体单元,还涉及实体周围的上下文,需要利用上下文中的一些结构化信息,这也使得问题复杂度呈指数级增长。
  5. 关系有时候在文本中找不到任何明确的标识,关系隐含在文本中。
  6. 关系抽取一般依赖于词法、句法分析等基本的自然语言处理工具,但是实际情况下,许多针对这些工作的自然语言处理工具性能并不高,低性能工具引入的错误反而会降低关系抽取系统的性能。

6.1.3 相关评测

  针对这一任务,学术界组织了许多公开的技术评测,极大地推动了该领域的相关研究。
  除了消息理解会议(Message Under-standing Conference,MUC)、自动内容抽取(Automatic Content Extraction Evaluation,ACE)和文本分析会议(Text Analysis Conference,TAC)三大国际评测会议外,另一个比较有影响力的国际评测会议是语义评测会议(SemEval)。SemEval会议从1998举办,截止到2018年已经成功举办11届,影响力非常广泛,设有词语语义消歧、时间识别和关系抽取等多项任务。在使用最为广泛的SemEval 2010评测集中共定义了9类关系(工具-代理、原因-影响、内容-容器、产品-生产商、实体-出生、成分-整体、实体-目的地、成员-集体、消息-主题)和一个其他类。

6.2 限定域关系抽取

  限定域关系抽取指在一个或者多个限定的领域之内判定文本中所出现的实体指称之间是何种语义关系,且待判定的语义关系是预定义的。因此。已有研究常把这一任务看作是一个文本分类任务,即在输入一个句子以及标识句子中所出现的实体指称的条件下,系统将其分类到所属的语义类别上。早期针对这任务的研究多是采用模板的方式对文本中实体间的语义关系进行判别,随着统计机器学习的发展,越来越多的研究者采用有监督学习的方法,即针对每个关系类别标注充足的训练数据,然后

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值