NLP 数据集整理(持续更新。。。)

本文汇总了多个NLP领域的经典数据集,包括Semantic Similarity、Classification、Sentiment Analysis等,如WordSim353、IMDB、Stanford Sentiment Treebank等,并提供相关资源链接,供研究者参考和使用。
摘要由CSDN通过智能技术生成

这篇文章总结了我看到的NLP相关论文中使用的语料数据,将会持续更新。小伙伴们如果也知道文中没有的数据集,欢迎大家在评论中告诉我~只要写数据集的名字,对应文章和下载网址就可以,我看到会第一时间添加到本文中^.^
用于NLP实验的各类免费英文语料数据库整理如下:(每个语料数据的链接都在注脚对应的文章中,文中还提供了使用的方式)

Semantic Similarity

WordSim3531:包括353个词对,用于对词之间的语义相似度排序。语义相似度性能通常用两个词矢量之间的余弦距离表示。

TOEFL2:包括80个同义词多选一问题,每个问题有4个候选,要求选出最接近的词。例如对于levied,有imposed(correct),believed,requested,correlated四个选项。同样使用余弦距离衡量两个词之间的相似度,找到最相邻的词。

Semantic&Syntactic3: 包括8869个语义问题和10675个句法问题。在T.Mikolov的word2vec中使用。问题都类似于“man is to (woman) as king is to queen”或者“predict is to (predicting) as dance is to dancing”.

Classification

IMDB4: 这个数据包括3个部分,训练集,测试集和未标记的数据集。训练集和测试集用于训练和测试文本分类模型,未标记的数据集用于训练词矢量。被用于情感分析。

Stanford Sentiment Treebank5:这个数据比较小,被用于基于CNN的情感分类中。同样,还可用于语义

评论 14
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值