gensim word2vec

1.参数说明
gensim.models.word2vec.Word2Vec(sentences=None,size=100,alpha=0.025,window=5, min_count=5, max_vocab_size=None, sample=0.001,seed=1, workers=3,min_alpha=0.0001, sg=0, hs=0, negative=5, cbow_mean=1, hashfxn=,iter=5,null_word=0, trim_rule=None, sorted_vocab=1, batch_words=10000)

参数:
· sentences:可以是一个·ist,对于大语料集,建议使用BrownCorpus,Text8Corpus或·ineSentence构建。
· sg: 用于设置训练算法,默认为0,对应CBOW算法;sg=1则采用skip-gram算法。
· size:是指特征向量的维度,默认为100。大的size需要更多的训练数据,但是效果会更好. 推荐值为几十到几百。
· window:表示当前词与预测词在一个句子中的最大距离是多少
· alpha: 是学习速率
· seed:用于随机数发生器。与初始化词向量有关。
· min_count: 可以对字典做截断. 词频少于min_count次数的单词会被丢弃掉, 默认值为5
· max_vocab_size: 设置词向量构建期间的RAM限制。如果所有独立单词个数超过这个,则就消除掉其中最不频繁的一个。每一千万个单词需要大约1GB的RAM。设置成None则没有限制。
· sample: 高频词汇的随机降采样的配置阈值,默认为1e-3,范围是(0,1e-

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
好的,我可以为您讲解如何用gensim训练英文词向量。首先,您需要准备一份包含英文文本的语料库,可以是一个文本文件或者是一个文件夹中包含多个文本文件。然后,您需要安装gensim库以及其他相关依赖库。 接下来,您可以使用以下代码进行训练: ```python from gensim.models import Word2Vec import logging # 设置日志等级 logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO) # 读取语料库 with open('corpus.txt', 'r') as f: corpus = f.readlines() # 对文本进行预处理,例如分词、去除停用词等 processed_corpus = [[word for word in document.lower().split() if word.isalpha()] for document in corpus] # 训练模型 model = Word2Vec(processed_corpus, size=100, window=5, min_count=5, workers=4) # 保存模型 model.save('word2vec.model') ``` 在上述代码中,`size`参数表示词向量的维度,`window`参数表示窗口大小,`min_count`参数表示词频阈值,`workers`参数表示训练时使用的线程数。您可以根据需要调整这些参数。 训练完成后,您可以使用以下代码加载模型并进行相关操作: ```python # 加载模型 model = Word2Vec.load('word2vec.model') # 获取某个词的向量 vector = model.wv['word'] # 查找与某个词最相似的词 similar_words = model.wv.most_similar('word') ``` 以上就是使用gensim训练英文词向量的基本流程和操作,希望对您有帮助。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值