一、了解gensim训练词向量
利用gensim.models.Word2Vec(sentences)建立词向量模型
三步实现:建立一个空的模型对象,遍历一次语料库建立词典,第二次遍历语料库建立神经网络模型。可以通过分别执行
model=gensim.models.Word2Vec()
model.build_vocab(sentences)
model.train(sentences)
也可以直接一步实现
gensim.models.Word2Vec()
二、保存的方式
1、
以model.save()方法保存词向量
保存词向量
…
import gensim
model = gensim.models.Word2Vec(documents, size=300)
model.train(documents, total_examples=len(documents), epochs=10)
model.save("./models/Word2vec.w2v")
…
加载词向量
‘’’
import gensim
word2vec = gensim.models.word2vec.Word2Vec.load("./models/Word2vec.w2v")
‘’’
2、保存为二进制的词向量
import gensim
model.wv.save_Word2Vec_format(embedding_path,binary=True)
加载
word2vec = gensim.models.KeyedVectors.load_word2vec_format(embedding_path,binary=True)
3、使用numpy进行保存和加载
np.save()保存npy文件,np.load()加载npy文件。
调用请看
https://blog.csdn.net/xuxiatian/article/details/88576454
https://blog.csdn.net/orangefly0214/article/details/90518229