Doc2Vec 模型参数

Doc2Vec 模型参数 详解

model = Doc2Vec(
        dm=0, vector_size=100, window=5, min_count=5, workers=4, alpha=0.025, min_alpha=0.001, epochs=15)
  • dm 定义了训练的算法。默认是dm=1,使用 ‘distributed memory’ (PV-DM),否则 distributed bag of words (PV-DBOW)。
  • vector_size 是特征向量的纬度。
  • window 是要预测的词和文档中用来预测的上下文词之间的最大距离。
  • min_count 忽略总频数小于此的所有的词, 默认值为5。
  • workers:用于控制训练的并行数。
  • alpha 是初始化的学习速率,会随着训练过程线性下降。
  • min_alpha:学习率的最小值。
  • epochs:(int, optional) - 语料库上的迭代次数(epochs)。
  • iter: 迭代次数,默认为5。
  • hs: 如果为1则会采用hierarchica·softmax技巧。如果设置为0(默认),则使用negative sampling。
  • seed 用于随机数发生器。与初始化词向量有关。需要注意的是,对于一个完全明确的重复运行(fully deterministically-reproducible run),你必须同时限制模型单线程工作以消除操作系统线程调度中的有序抖动。(在python3中,解释器启动的再现要求使用PYTHONHASHSEED环境变量来控制散列随机化)
  • sample: 高频词汇的随机降采样的配置阈值,默认为1e-3,范围是(0,1e-5)。
  • max_vocab_size 在词汇累积的时候限制内存。如果有很多独特的词多于此,则将频率低的删去。每一千万词类大概需要1G的内存,设为None以不限制(默认)。
  • 2
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值