深度学习笔记——Word2vec和Doc2vec训练实例以及参数解读

本篇主要用一个实例来介绍一下如何进行Word2vec和Doc2vec的训练,并对Word2vec和Doc2vec模型训练过程中的参数进行一些解读。使用的是Python版本的gensim库实现,想要了解Word2vec和Doc2vec的原理可以查看我的上一篇博客( 深度学习笔记——Word2vec和Doc2vec原理理解并结合代码分析)。代码见我的GitHub(使用Gensim库训练Word2vec和Doc2vec模型


Word2vec

使用Gensim训练Word2vec十分方便,训练步骤如下:

1.将语料库预处理:一行一个文档或句子,将文档或句子分词(以空格分割,英文可以不用分词,英文单词之间已经由空格分割,中文预料需要使用分词工具进行分词,常见的分词工具有StandNLP、ICTCLAS、Ansj、FudanNLP、HanLP、结巴分词等);

2.将原始的训练语料转化成一个sentence的迭代器,每一次迭代返回的sentence是一个word(utf8格式)的列表。可以使用Gensim中word2vec.py中的LineSentence()方法实现;

3.将上面处理的结果输入Gensim内建的word2vec对象进行训练即可:

from gensim.models import Word2Vec
model = Word2Vec(LineSentence(inp), size=100, window=10, min_count=3,
            workers=multiprocessing.cpu_count(), sg=1, iter=10, negative=20)
具体的训练参数解释如下:

class Word2Vec(utils.SaveLoad):
    
  • 15
    点赞
  • 70
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值