STS、MSRP、SICK 语义相似度计算的公开数据集下载地址
百度云:https://pan.baidu.com/s/1sqlCc702owp_T6KjyNT6Yw
提取码: 66nb
1、MSRP数据集 Microsoft Research Paraphrase Corpus
官方下载网址: https://www.microsoft.com/en-us/download/details.aspx?id=52398
微软研究释义语料库提供的5081对英文句子,这些句子是从Web上的新闻源中提取的,还有人工注释,指示每对是否捕获了释义/语义等价关系。从任何给定的新闻文章中提取的句子不超过1个。我们已作出协调一致的努力,正确地将每个句子信息与其出处以及有关其作者的任何相关信息相关联。
参考文献引用:
Dolan, B., Quirk, C., & Brockett, C. Unsupervised Con-struction of Large Paraphrase Corpora: Exploiting Massively Parallel News Sources.[C]//Proceedings of the 20th International Conference on Computational Linguistics. COLING, 2004: 350-356.
原数据集目录: