数据集收集
-
我们的目的:通过提出监督关系提取模型,从句子中提取三元组以丰富知识库。
- 为了训练这样的模型,我们需要大量的带有完整标签的训练数据,这些数据以句子-三元组对的形式出现。
- 根据Sorokin和Gurevych(2017)的研究,我们使用远距离监督(Mintz等,2009)将Wikipedia中的句子与Wikidata中的三元组对齐(Vrandecic和Kröotzsch,2014)。
-
将实体-KB(Knowledge Base)Enrichment条目对应
- 我们通过与实体提及相关联的超链接将句子中的实体提及映射到Wikidata中的相应实体条目(即Wikidata ID),
- 该超链接记录在Wikidata中作为实体条目的url属性。
- 每对可能包含一个句子和多个三元组
- 我们根据表示句子中实体之间关系的谓词复述顺序对三元组的顺序进行排序。
- 我们通过提取包含Wikidata三元组的头和尾实体的句子来收集句子三对。
- 为了生成高质量的句子三元组对,我们提出了两个附加步骤:
- (1)使用共指消解来提取包含隐式实体名称的句子,以及
- (2)使用 paraphrase detection过滤不表达任何关系的句子。
- 实体与知识库对应
- 我们通过与实体提及相关联的超链接将句子中的实体提及映射到Wikidata中的相应实体条目(即Wikidata ID),
- 方法:远程监督
- 连接:超链接
- 增强:
- 共指消解:提取包含隐式实体名的句子