读完可以回答以下问题:
1. 什么是关系抽取
2.关系抽取的方法有哪些?
3.常用的关系抽取的数据集有哪些?
4.关系抽取的评估方法有哪些?
5.常用的关系抽取的评估指标是什么?
1.定义:关系抽取(Relation Extraction)就是抽取实体之间的关系实例,产生的结果是三元组<主体(Subject),谓词(Predicate),客体(Object)>。它是信息抽取的子任务之一,也是知识图谱构建最重要的的子任务之一。
2. 关系抽取的方法
3.关系抽取常用的数据集
一、人工构造的评测数据集
1.ACE2005数据集
包括新闻和电子邮件文档559个和7个主要类型的关系,每个关系大约有700个实例。
2.SemEval-2010 Task 8数据集
Hendrickx提供的免费数据集,包含1万多个句子
二、远程监督自动构造的评测数据集
1.NYT数据集
通过对齐Freebase知识库和《纽约时报》语料库构建而得。包括53中关系和一种NA关系(Not Applicable,也就是预定义关系之外的关系)
训练集包括522611个句子,281270个实体和18252个关系事实
测试集包括172448个句子,96678个实体和1950个关系事实
缺点:存在噪声,有效标注的样本规模有限,类别不平衡。
2.KBP数据集
4.关系抽取的评估方法
5.关系抽取的评估指标
准确率,精确率,召回率,F1值和PR曲线(Precision-Recall曲线)