Doc2Vec 模型参数 详解
model = Doc2Vec(
dm=0, vector_size=100, window=5, min_count=5, workers=4, alpha=0.025, min_alpha=0.001, epochs=15)
- dm 定义了训练的算法。默认是dm=1,使用 ‘distributed memory’ (PV-DM),否则 distributed bag of words (PV-DBOW)。
- vector_size 是特征向量的纬度。
- window 是要预测的词和文档中用来预测的上下文词之间的最大距离。
- min_count 忽略总频数小于此的所有的词, 默认值为5。
- workers:用于控制训练的并行数。
- alpha 是初始化的学习速率,会随着训练过程线性下降。
- min_alpha:学习率的最小值。
- epochs:(int, optional) - 语料库上的迭代次数(epochs)。
- iter: 迭代次数,默认为5。
- hs: 如果为1则会采用hierarchica·softmax技巧。如果设置为0(默认),则使用negative sampling。
- seed 用于随机数发生器。与初始化词向量有关。需要注意的是,对于一个完全明确的重复运行(fully deterministically-reproducible run),你必须同时限制模型单线程工作以消除操作系统线程调度中的有序抖动。(在python3中,解释器启动的再现要求使用PYTHONHASHSEED环境变量来控制散列随机化)
- sample: 高频词汇的随机降采样的配置阈值,默认为1e-3,范围是(0,1e-5)。
- max_vocab_size 在词汇累积的时候限制内存。如果有很多独特的词多于此,则将频率低的删去。每一千万词类大概需要1G的内存,设为None以不限制(默认)。