语义相似度公开数据集STS、MSRP、SICK 介绍和下载

本文介绍了用于语义相似度计算的三个重要公开数据集:MSRP、SICK和STS,包括它们的来源、特点和应用场景。提供了数据集的下载链接和相关参考文献,便于进一步研究和实验。
摘要由CSDN通过智能技术生成

STS、MSRP、SICK 语义相似度计算的公开数据集下载地址

百度云:https://pan.baidu.com/s/1sqlCc702owp_T6KjyNT6Yw

提取码: 66nb

1、MSRP数据集     Microsoft Research Paraphrase Corpus

官方下载网址:  https://www.microsoft.com/en-us/download/details.aspx?id=52398

      微软研究释义语料库提供的5081对英文句子,这些句子是从Web上的新闻源中提取的,还有人工注释,指示每对是否捕获了释义/语义等价关系。从任何给定的新闻文章中提取的句子不超过1个。我们已作出协调一致的努力,正确地将每个句子信息与其出处以及有关其作者的任何相关信息相关联。

参考文献引用:
Dolan, B., Quirk, C., & Brockett, C. Unsupervised Con-struction of Large Paraphrase Corpora: Exploiting Massively Parallel News Sources.[C]//Proceedings of the 20th International Conference on Computational Linguistics. COLING, 2004: 350-356.

原数据集目录:

评论 15
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值