Gensim Word2vec 模型的训练和保存

模型保存

在使用Word2vec 进行模型保存的时候,有两种保存方法:

  1. 加载保存的模型,如果再训练,会更新原来模型的向量,例如,原始的模型有预料你好, 将这个模型保存后,加载后新的预料里也有你好 ,那么下面的形式将会更新你好的Embedding
from gensim.models import Word2Vec
# 假设已经有了一个模型叫 model
model.wv.save(file_path)

对应的加载方法:

model = Word2Vec.load(file_path)
# 接下来整理一些自己的语料
corpus = [['你好', '我爱', 'python'], ['编程', '很美']]
model.build_vocab(corpus, update=True)
model.train(corpus, total_examples=model.corpus_count, epochs=model.iter)
  1. 加载保存的模型,再训练,不会更新原有的向量表示
    保存成 orginal C word2vec-tool 的格式,网上很多预训练模型都保存成了这种模式
model.wv.save_word2vec_format(file_path)

加载模式如下:

from gensim.models import Word2Vec
from gensim.models import KeyedVectors
model = Word2Vec(size=300, sg=1, min_count=1)
# 这里设置的维数必须和预训练的模型一致才行

# 加载预训练的模型
pre_model = KeyedVectors.load_word2vec_format(model_path,  binary=False)

# 训练新的模型
model.build_vocab([list(pre_model.vocab.keys())], update=True)
# 加载预训练模型
model.intersect_word2vec_format(model_path, binary=False, lockf=1.0)
model.train(corpus=新的预料, total_examples=model.corpus_count, epochs=model.epochs)



  • 2
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值