信息抽取——命名实体识别
1 关系抽取介绍
关系抽取(Relation Extraction)的概念字1988年在MUC大会上提出,是信息抽取的基本任务之一,目的是为了识别出文本实体中的目标关系。
知识图是语义关联的实体,它将人们对物理世界的认知转化为计算机能够以结构化的方式理解的语义信息。关系抽取通过识别实体之间的关系来提取实体之间的语义关系。在现实世界中,关系的提取要比实体提取复杂得多,自然句子的形式也多种多样,所以关系的提取比实体提取困难得多。
关系抽取主要分为两个任务:
- 关系分类
- 基于预先给定的关系,对实体对进行分类匹配。
Example 1:“Bill Gates works at Microsoft Inc.”
Person-affiliation (Bill Gates,Microsoft Inc)
- 基于预先给定的关系,对实体对进行分类匹配。
- 开放关系抽取
- 直接从文本中抽取结构化文本关系
- 对文本关系映射到知识库的规范关系
Example 2:Hudson was born in hampstead ,which is a suburb of London.
(Husdon, w a s b o r n i n \color{red} was\quad born\quad in wasbornin , Hampstead)
(Hampstead, i s a s u b u r d o f \color{red}is \quad a \quad suburd \quad of isasuburdof, London)
关系抽取的发展主要也分为三个阶段:基于规则、传统机器学习和基于深度学习。其中机器学习又包括监督学习,无监督学习,半监督学习。深度学习主要是监督学习和远程监督学习。下面分别介绍这三种框架的经典算法。
2 基于规则的关系抽取算法
通过手写规则来匹配文本,实现关系的提取。主要是分为两种。
2.1 基于触发词 (基于模式)
假设X和Y表示公司类型,可使用如下模板表示收购(ACQUISITION)关系。当满足下述模板,则表示两个实体指称在这个句子中具有收购(ACQUISITION)关系。
规则 | 内容 |
---|---|
规则1 | X is acquired by Y |
规则2 | X is purchased by Y |
规则3 | X is bought by Y |
当匹配出以上模式时候,就可以根据规则提取出实体之间的关系(X,Acquisition,Y)
2.2 基于依存关系(语法树)
以动词为起点构建规则,对节点上的词性和边上的依存关系进行限定。
2.3 基于规则的RE优缺点
- 优点:
- 人工规则有高准确度
- 可以针对特定的垂直领域
- 在小规模数据集哈桑容易实现
- 缺点
- 低召回率
- 特定领域需要专家构建,费时费力
- 难以维护
- 每条关系都需要人工构建
- 鲁棒性差
3 基于机器学习的RE方法
根据数据是否标注,可以分为监督学习(Supervised Study)