import gensim
word2vec_model = KeyedVectors.load_word2vec_format('Path:/…/ChineseEmbeddingMin.txt', binary=False, unicode_errors='ignore')
这里,“binary=False” 是指text 形式;binary=True 是指 binary 形式。
报错1:
“EOFError: unexpected end of input; is count incorrect or file otherwise damaged?”
原因:
训练好的词向量文件(不是词向量模型),第一行有两个数字“500 100”,前者指“此文件中共有多少个词”(这个数和实际词的数对不上才报了上边的错),后者指“每个词的维度”。
解决方法:
ctrl+End找到文件最底部,查看文件行数(此处为501),行数减1为实际词数(500)。核对下第一行第一个数和实际的词数是否一致?此处“500 100”第一个数和(501-1)一致,所以报错可以解决。