关系抽取的各大数据集的sota方法网址:https://paperswithcode.com/task/relation-extraction
关系抽取的定义
关系抽取就是从一段文本中抽取出**(主体,关系,客体)**这样的三元组,用英文表示就是(subject, relation, object)
这样的三元组。所以关系抽取,有的论文也叫作三元组抽取。从关系抽取的定义也可以看出,关系抽取主要做两件事:
- 识别文本中的subject和object(实体识别任务)
- 判断这两个实体属于哪种关系(关系分类)。
例如,给出如下的句子:刘翔,1983年7月13日出生于上海,中国男子田径队110米栏运行员。我们可以抽取出实体关系三元组实例 (刘翔,出生地,上海)。
关系抽取的现实意义:关系抽取可以为知识图谱的自动构建、搜索引擎、问答等下游任务提供支撑。
关系抽取的分类
1. 根据训练方式分类
根据训练模型的方式是全监督还是半监督,可分为全监督的关系抽取和远程监督关系抽取。
全监督关系抽取
全监督关系抽取任务并没有实体识别这一子任务,因为数据集中已经标出了subject实体和object实体分别是什么,所以全监督的关系抽取任务更像是做分类任务。模型的主体结构都是特征提取器+关系分类器。特征提取器比如CNN,LSTM,GNN,Transformer和BERT等。关系分类器用简单的线性层+softmax即可。
全监督关系抽取常用的数据集是