问题详解
1.word2vec - KeyError: “word X not in vocabulary”
解决方案:阅读https://stackoverflow.com/questions/58666699/word2vec-keyerror-word-x-not-in-vocabulary提到的两种方法解决
可能存在的问题
- 在训练时gensim.models.Word2Vec(data, size=, min_count=, window=)的参数min_count默认值为5,也即频率低于5的词都将被忽略不进行训练,故将其值改为1,仍然报错。
- 上述data参数数值类型错误,查看了官方示例(https://radimrehurek.com/gensim/auto_examples/tutorials/run_word2vec.html#sphx-glr-auto-examples-tutorials-run-word2vec-py),类型应该为list,然而个人将经过预处理(文字提取,分词,去停用词等)的数据