Word2Vec参数说明:
- sentences (iterable of iterables, optional) – 供训练的句子,可以使用简单的列表,但是对于大语料库,建议直接从磁盘/网络流迭代传输句子。参阅word2vec模块中的BrownCorpus,Text8Corpus或LineSentence。
- corpus_file (str, optional) – LineSentence格式的语料库文件路径。
- size (int, optional) – word向量的维度。
- window (int, optional) – 一个句子中当前单词和被预测单词的最大距离。
- min_count (int, optional) – 忽略词频小于此值的单词。
- workers (int, optional) – 训练模型时使用的线程数。
- sg ({0, 1}, optional) – 模型的训练算法: 1: skip-gram; 0: CBOW.
- hs ({0, 1}, optional) – 1: 采用hierarchical softmax训练模型; 0: 使用负采样。
- negative (int, optional) – > 0: 使用负采样,设置多个负采样(通常在5-20之间)。
- ns_exponent (float, optional) – 负采样分布指数。1.0样本值与频率成正比,0.0样本所有单词均等,负值更多地采样低频词。
- cbow_mean ({0, 1}, optional)