数据集收集

最新推荐文章于 2024-05-08 07:30:00 发布

qitiao7777777

最新推荐文章于 2024-05-08 07:30:00 发布

阅读量491

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qitiao7777777/article/details/118631449

版权

本文介绍了如何使用远程监督方法从Wikipedia和Wikidata中收集句子-三元组对，通过共指消解和复述检测来提高数据质量，以丰富知识库。方法包括将实体映射到Wikidata，处理隐式实体名称，以及利用基于字典的复述检测过滤无关句子。

摘要由CSDN通过智能技术生成

数据集收集

我们的目的：通过提出监督关系提取模型，从句子中提取三元组以丰富知识库。
- 为了训练这样的模型，我们需要大量的带有完整标签的训练数据，这些数据以句子-三元组对的形式出现。
- 根据Sorokin和Gurevych（2017）的研究，我们使用远距离监督（Mintz等，2009）将Wikipedia中的句子与Wikidata中的三元组对齐（Vrandecic和Kröotzsch，2014）。
将实体-KB（Knowledge Base）Enrichment条目对应
- 我们通过与实体提及相关联的超链接将句子中的实体提及映射到Wikidata中的相应实体条目（即Wikidata ID），
  - 该超链接记录在Wikidata中作为实体条目的url属性。
- 每对可能包含一个句子和多个三元组
- 我们根据表示句子中实体之间关系的谓词复述顺序对三元组的顺序进行排序。
- 我们通过提取包含Wikidata三元组的头和尾实体的句子来收集句子三对。
- 为了生成高质量的句子三元组对，我们提出了两个附加步骤：
  - (1)使用共指消解来提取包含隐式实体名称的句子，以及
  - （2）使用 paraphrase detection过滤不表达任何关系的句子。
  - 实体与知识库对应

方法：远程监督
连接：超链接
增强：
- 共指消解：提取包含隐式实体名的句子

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。