词向量验证的方法通常有: 词的相似性任务(Word Similarity
) 以及 词的类比任务 (Word Analogy
)。
词的相似性任务-Word Similarity
常用的英文数据集:WordSim-353 、MEN、SCWS
常用的中文数据集:wordsim-240、wordsim-297
词的类比任务-Word Analogy
常用的中文数据集:Chen 2015年构造的评测文件
常用的英文数据集:MSR、SYN、SEM(暂时还没收集到)
上述的数据集上传到了github上了 :https://github.com/CallMeJiaGu/WordSimilarityAnalogyData