gensim.models.Word2Vec参数

gensim.models.Word2Vec参数包括句子迭代器、词向量尺寸、上下文窗口大小、最小词频、线程数等。模型可以选择skip-gram或CBOW训练方式,并支持层次softmax或负采样。此外,参数还涉及学习率、词汇限制和随机种子等,以优化训练过程。
摘要由CSDN通过智能技术生成

Word2Vec参数说明:

  • sentences (iterable of iterables, optional) – 供训练的句子,可以使用简单的列表,但是对于大语料库,建议直接从磁盘/网络流迭代传输句子。参阅word2vec模块中的BrownCorpus,Text8Corpus或LineSentence。
  • corpus_file (str, optional) – LineSentence格式的语料库文件路径。
  • size (int, optional) – word向量的维度。
  • window (int, optional) – 一个句子中当前单词和被预测单词的最大距离。
  • min_count (int, optional) – 忽略词频小于此值的单词。
  • workers (int, optional) – 训练模型时使用的线程数。
  • sg ({0, 1}, optional) – 模型的训练算法: 1: skip-gram; 0: CBOW.
  • hs ({0, 1}, optional) – 1: 采用hierarchical softmax训练模型; 0: 使用负采样。
  • negative (int, optional) – > 0: 使用负采样,设置多个负采样(通常在5-20之间)。
  • ns_exponent (float, optional) – 负采样分布指数。1.0样本值与频率成正比,0.0样本所有单词均等,负值更多地采样低频词。
  • cbow_mean ({0, 1}, optional)
  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值