数据集收集

本文介绍了如何使用远程监督方法从Wikipedia和Wikidata中收集句子-三元组对,通过共指消解和复述检测来提高数据质量,以丰富知识库。方法包括将实体映射到Wikidata,处理隐式实体名称,以及利用基于字典的复述检测过滤无关句子。
摘要由CSDN通过智能技术生成

数据集收集

  • 我们的目的:通过提出监督关系提取模型,从句子中提取三元组以丰富知识库。

    • 为了训练这样的模型,我们需要大量的带有完整标签的训练数据,这些数据以句子-三元组对的形式出现。
    • 根据Sorokin和Gurevych(2017)的研究,我们使用远距离监督(Mintz等,2009)将Wikipedia中的句子与Wikidata中的三元组对齐(Vrandecic和Kröotzsch,2014)。
  • 将实体-KB(Knowledge Base)Enrichment条目对应

    • 我们通过与实体提及相关联的超链接将句子中的实体提及映射到Wikidata中的相应实体条目(即Wikidata ID),
      • 该超链接记录在Wikidata中作为实体条目的url属性。
    • 每对可能包含一个句子和多个三元组
    • 我们根据表示句子中实体之间关系的谓词复述顺序对三元组的顺序进行排序。
    • 我们通过提取包含Wikidata三元组的头和尾实体的句子来收集句子三对。
    • 为了生成高质量的句子三元组对,我们提出了两个附加步骤:
      • (1)使用共指消解来提取包含隐式实体名称的句子,以及
      • (2)使用 paraphrase detection过滤不表达任何关系的句子。
      • 实体与知识库对应

  • 方法:远程监督
  • 连接:超链接
  • 增强:
    • 共指消解:提取包含隐式实体名的句子
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值