Gensim 中 word2vec 模型的恢复训练：载入存储模型并继续训练

最新推荐文章于 2023-03-30 11:18:37 发布

AItrust

最新推荐文章于 2023-03-30 11:18:37 发布

阅读量1.7k

点赞数 2

分类专栏： NLP 文章标签：深度学习机器学习神经网络 nlp 自然语言处理

本文链接：https://blog.csdn.net/qq_42067550/article/details/106576696

版权

NLP 专栏收录该内容

20 篇文章 4 订阅

订阅专栏

Gensim 中 word2vec 模型的恢复训练

本文为系列文章之一，前面的几篇请点击链接：
NLP 利器 gensim 库基本特性介绍和安装方式
 NLP 利器 Gensim 库的使用之 Word2Vec 模型案例演示
 NLP 利器 Gensim 来训练自己的 word2vec 词向量模型
 NLP 利器 Gensim 来训练 word2vec 词向量模型的参数设置
 NLP 利器 Gensim 中 word2vec 模型的内存需求，和模型评估方式

恢复训练

载入模型，并继续训练：

model = gensim.models.Word2Vec.load('./w2v.m')
more_sentences = [
    ['Advanced', 'users', 'can', 'load', 'a', 'model',
     'and', 'continue', 'training', 'it', 'with', 'more', 'sentences']
]
model.build_vocab(more_sentences, update=True)
model.train(more_sentences, total_examples=model.corpus_count, epochs=model.iter)

model.train 方法参数如下：

train(sentences=None, corpus_file=None, total_examples=None, total_words=None, epochs=None, start_alpha=None, end_alpha=None, word_count=0, queue_factor=2, report_delay=1.0, compute_loss=False, callbacks=())

其中 total_examples 或者 total_words 必须设置，如果语料 sentences 和提供给 build_vocab 中的相同，那么可以简单地写成 total_examples=self.corpus_count，另外 epochs 参数必须提供，如果我们只需要执行 train() 一次（推荐这么做），可以设置为 epochs=self.iter

注意：如果是 C 编写的模型，那重新载入后，无法继续训练！！！

AItrust

关注

2
点赞
踩
13

收藏

觉得还不错? 一键收藏
1
评论
Gensim 中 word2vec 模型的恢复训练：载入存储模型并继续训练

Gensim 中 word2vec 模型的恢复训练本文为系列文章之一，前面的几篇请点击链接：NLP 利器 gensim 库基本特性介绍和安装方式NLP 利器 Gensim 库的使用之 Word2Vec 模型案例演示NLP 利器 Gensim 来训练自己的 word2vec 词向量模型NLP 利器 Gensim 来训练 word2vec 词向量模型的参数设置NLP 利器 Gensim 中 word2vec 模型的内存需求，和模型评估方式恢复训练载入模型，并继续训练：model = gensi
复制链接

扫一扫