关系定义为两个或多个实体之间的某种联系,实体关系学习就是自动从文本中检测和识别出实体之间具有某种语义的关系,也称为关系抽取。关系抽取的结果通常是一个三元组(实体1,关系,实体2)。例如:句子“北京是中国的首都、政治中心和文化中心”中的表述抽取出的关系表示为(中国,首都,北京),(中国,政治中心,北京),(中国,文化中心,北京)。关系抽取是知识图谱的构建和知识抽取中的一个重要环节,具有重要的理论意义和广阔的应用场景,为多种应用提供重要的支持,主要表现在:
- 大规模知识图谱的自动构建:现有的知识图谱大多都由专家人工编撰,随着互联网的发展,知识呈现爆炸式增长,人工构建知识图谱特别是构建领域知识图谱遇到了很大的困难,存在只是覆盖率低,数据稀疏和更新缓慢等问题。然而利用关系抽取的技术,知识图谱可以根据结构化的抽取结果自动生成。
- 为其他信息获取技术提供支持。
- 自然语言理解领域:关系抽取是篇章理解的关键技术,运用语言处理技术可以对文本的核心内容进行理解,因此,语义关系抽取的研究将成为从简单的自然语言处理技术到真正的自然语言理解应用之间的一个重要纽带。
研究内容
研究的内容主要包括:限定域关系抽取和开放域关系抽取。
- 限定域关系抽取是指系统所抽取的关系类别是预先定义好的,比如知识图谱中定义好的关系类别。在限定域关系抽取中关系的类别一般是人工定义或者从知识图谱中自动获取。由于类别已经定义,所以可以人工或者利用启发式的规则自动标注语料。因而,限定域关系抽取中的主要内容是<