Gensim Word2vec 模型的训练和保存

最新推荐文章于 2022-12-15 10:14:51 发布

PiggyGaGa

最新推荐文章于 2022-12-15 10:14:51 发布

阅读量1.5k

点赞数 2

分类专栏： Deeplearning

本文链接：https://blog.csdn.net/luoluonuoyasuolong/article/details/107810578

版权

Deeplearning 专栏收录该内容

9 篇文章 11 订阅

订阅专栏

模型保存

在使用Word2vec 进行模型保存的时候，有两种保存方法：

加载保存的模型，如果再训练，会更新原来模型的向量，例如，原始的模型有预料你好，将这个模型保存后，加载后新的预料里也有你好 ，那么下面的形式将会更新你好的Embedding

from gensim.models import Word2Vec
# 假设已经有了一个模型叫 model
model.wv.save(file_path)

对应的加载方法：

model = Word2Vec.load(file_path)
# 接下来整理一些自己的语料
corpus = [['你好', '我爱', 'python'], ['编程', '很美']]
model.build_vocab(corpus, update=True)
model.train(corpus, total_examples=model.corpus_count, epochs=model.iter)

加载保存的模型，再训练，不会更新原有的向量表示
保存成 orginal C word2vec-tool 的格式，网上很多预训练模型都保存成了这种模式

model.wv.save_word2vec_format(file_path)

加载模式如下：

from gensim.models import Word2Vec
from gensim.models import KeyedVectors
model = Word2Vec(size=300, sg=1, min_count=1)
# 这里设置的维数必须和预训练的模型一致才行

# 加载预训练的模型
pre_model = KeyedVectors.load_word2vec_format(model_path,  binary=False)

# 训练新的模型
model.build_vocab([list(pre_model.vocab.keys())], update=True)
# 加载预训练模型
model.intersect_word2vec_format(model_path, binary=False, lockf=1.0)
model.train(corpus=新的预料, total_examples=model.corpus_count, epochs=model.epochs)

PiggyGaGa

关注

2
点赞
踩
11

收藏

觉得还不错? 一键收藏
1
评论
Gensim Word2vec 模型的训练和保存

模型保存在使用Word2vec 进行模型保存的时候，有两种保存方法：加载保存的模型，如果再训练，会更新原来模型的向量，例如，原始的模型有预料你好，将这个模型保存后，加载后新的预料里也有你好，那么下面的形式将会更新你好的Embeddingfrom gensim.models import Word2Vec# 假设已经有了一个模型叫 modelmodel.wv.save(file_path)对应的加载方法：model = Word2Vec.load(file_path)# 接下来整理一
复制链接

扫一扫