这篇文章总结了我看到的NLP相关论文中使用的语料数据,将会持续更新。小伙伴们如果也知道文中没有的数据集,欢迎大家在评论中告诉我~只要写数据集的名字,对应文章和下载网址就可以,我看到会第一时间添加到本文中^.^
用于NLP实验的各类免费英文语料数据库整理如下:(每个语料数据的链接都在注脚对应的文章中,文中还提供了使用的方式)
Semantic Similarity
WordSim3531:包括353个词对,用于对词之间的语义相似度排序。语义相似度性能通常用两个词矢量之间的余弦距离表示。
TOEFL2:包括80个同义词多选一问题,每个问题有4个候选,要求选出最接近的词。例如对于levied,有imposed(correct),believed,requested,correlated四个选项。同样使用余弦距离衡量两个词之间的相似度,找到最相邻的词。
Semantic&Syntactic3: 包括8869个语义问题和10675个句法问题。在T.Mikolov的word2vec中使用。问题都类似于“man is to (woman) as king is to queen”或者“predict is to (predicting) as dance is to dancing”.
Classification
IMDB4: 这个数据包括3个部分,训练集,测试集和未标记的数据集。训练集和测试集用于训练和测试文本分类模型,未标记的数据集用于训练词矢量。被用于情感分析。
Stanford Sentiment Treebank5:这个数据比较小,被用于基于CNN的情感分类中。同样,还可用于语义