6 关系抽取
不同的关系将独立的实体连接在一起编织成知识图谱。
6.1 任务概述
6.1.1 任务定义
关系定义为两个或多个实体之间的某种联系,关系抽取就是自动识别实体之间的某种语义关系。
根据参与实体的多少可以分为二元关系抽取和多元关系抽取,
其中二元关系是指两个实体间的关系,多元关系指的是三个及以上实体间的关系。
二元关系抽取是其他关系抽取研究的基础。
6.1.2 任务分类
根据处理数据源的不同,关系抽取可以分为以下三种:
(1)面向结构化文本的关系抽取
结构化文本包括表格数据、XML文档以及数据库数据等,这列数据通常具有良好的布局结构,因此抽取比较容易,可针对特定的网站编写特定模板进行抽取,抽取准确率也比较高。
(2)面向非结构化文本的关系抽取
非结构化文本指的就是纯文本。
但是,由于自然语言表达的多样性、灵活性,实体关系在文本总一般找不到明确的标识,这使得从中抽、识别语义 关系非常困难,需要自然语言处理技术的支持。
相对来说,从非结构化文本中抽取关系的准确率比较低。
(3)面向半结构化文本的关系抽取
根据抽文本的范围不同,可以分为:
(1)句子级关系抽取
(2)语料(篇章)级关系抽取
根据所抽取领域划分为:
(1)限定域关系抽取
(2)开放域关系抽取
6.1.3 任务定义
关系定义为两个或多个实体之间的某种联系,关系抽取就是自动识别实体之间的某种语义关系。
根据参与实体的多少可以分为二元关系抽取和多元关系抽取,
其中二元关系是指两个实体间的关系,多元关系指的是三个及以上实体间的关系。
二元关系抽取是其他关系抽取研究的基础。
6.1.4 相关评测
6.2 限定域关系抽取
6.2.1 基于模板的关系抽取方法
6.2.2 基于机器学习的关系抽取方法
6.2.2.1 有监督的关系抽取方法
- 基于特征工程的方法
- 基于核函数的方法
- 基于神经网络的方法
6.2.2.2 弱监督的关系抽取方法
6.3 开放域关系抽取
- 语料的自动生成和分类器训练
- 大规模关系三元组的抽取
- 关系三元组可信度计算