1、关系抽取概述
2、关系抽取分类
3、常用关系抽取方法
关系抽取面临的挑战 :
(1)基于规则的关系抽取
命名实体标签:
人工规则优缺点:
(2)有监督关系抽取
常用特征工程:
词汇特征:
句法特征和其他特征:
**基于Bootstrapping的关系抽取 **
关系抽取可能存在以下问题(大部分情况适用):
1)没有足够标注数据
2)可能有一些种子 实体对
3)可能有一些非常好的pattern
基于以上情况,由以下主要流程进行关系抽取:
示例1:
示例2:
主要步骤如下:
步骤一:
步骤二:
步骤三:
步骤四:
Bootstrapping关系抽取中容易出现语义漂移,再迭代过程中会引入噪音实例和模版。所以每一步都需要人工参与。
Bootstrapping-语义漂移解决办法:
远程监督概述:
基本假设:若一个实体对再知识库中存在某个关系,那么包含该实体对的所有句子都以某种方式表达该关系。
如果要用远程监督的方法,首先看数据库中的数据是否满足这样的前提。
例如:
远程监督构造过程:
优点:
(1)减少人工标注代价
(2)可扩展性:可以使用大量未标记的数据
缺点:
(1)训练语料库含有大量标错的噪声
(2)没有严格合理的负样本用于训练
基于远程监督的关系抽取方法:
实例一:
实例二:(注意力机制)
4、开放式关系抽取
基本方法:
步骤:(三步)
实例: