深度学习笔记——Word2vec和Doc2vec训练实例以及参数解读

最新推荐文章于 2023-11-22 21:38:33 发布

mpk_no1

最新推荐文章于 2023-11-22 21:38:33 发布

阅读量1.8w

点赞数 15

分类专栏： deep learning 深度学习 Word2vec Doc2vec

本文链接：https://blog.csdn.net/mpk_no1/article/details/72510655

版权

本文通过Python gensim库详细介绍了Word2vec和Doc2vec的训练过程，包括模型参数解析，如size、window、min_count等，并提供了训练实例。同时讨论了模型选择，如skip-gram与CBOW，Hierarchical Softmax与Negative Sampling的权衡。

摘要由CSDN通过智能技术生成

本篇主要用一个实例来介绍一下如何进行Word2vec和Doc2vec的训练，并对Word2vec和Doc2vec模型训练过程中的参数进行一些解读。使用的是Python版本的gensim库实现，想要了解Word2vec和Doc2vec的原理可以查看我的上一篇博客（深度学习笔记——Word2vec和Doc2vec原理理解并结合代码分析）。代码见我的GitHub（使用Gensim库训练Word2vec和Doc2vec模型）

Word2vec

使用Gensim训练Word2vec十分方便，训练步骤如下：

1.将语料库预处理：一行一个文档或句子，将文档或句子分词（以空格分割，英文可以不用分词，英文单词之间已经由空格分割，中文预料需要使用分词工具进行分词，常见的分词工具有StandNLP、ICTCLAS、Ansj、FudanNLP、HanLP、结巴分词等）；

2.将原始的训练语料转化成一个sentence的迭代器，每一次迭代返回的sentence是一个word（utf8格式）的列表。可以使用Gensim中word2vec.py中的LineSentence()方法实现；

3.将上面处理的结果输入Gensim内建的word2vec对象进行训练即可：

from gensim.models import Word2Vec

model = Word2Vec(LineSentence(inp), size=100, window=10, min_count=3,
            workers=multiprocessing.cpu_count(), sg=1, iter=10, negative=20)

具体的训练参数解释如下：

class Word2Vec(utils.SaveLoad):

最低0.47元/天解锁文章

mpk_no1

关注

15
点赞
踩
70

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录