word2vec参数

word2vec训练 、

一般来说word2vec的词向量方法强于glove方法,而对于word2vec,cbow方法强于skip-gram

lr = 0.05 dim = 100 ws = 5 epoch = 5 minCount = 5 neg = 5 loss = 'ns' t = 1e-4

一般是把训练和测试的语料都用来做word-embedding 本文使用Word2Vector实现Word Embedding,参数设置情况如下

size=256 <Word Embedding的维度,如果是词的话一般设置为256,字的话设置为100就差不多,毕竟汉字数量为9w左右常用字7000左右

window=5, <滑动窗口的大小,词一般设置为5左右,表示当前词加上前后词数量为5,如果为字的话可以设置大一点> min_count=5, <最小词频,超过该词频的才纳入统计,字的话词频可以设置高一点> workers=15, <线程数量,加速处理> https://zhuanlan.zhihu.com/p/31963565

from gensim.models.word2vec import LineSentence 用于已经分号词的文件

般来说,比较喜欢用cbow ,因为模型中 cbow有向量相加的运算。

-cbow 0表示不使用cbow模型,默认为Skip-Gram模型

-size 表示词向量维数:经验是不超过1000,超过1000基本都没有效果,我感觉是可以取 sqrt(dict_size)/2 的样子,不过最好多试几个

-window 上下文窗口,是训练词向量的时候,取上下文的大小,感觉这个一般都是5比较好

-sample 表示采样参数,是一个经验忽视掉频率过高的词的参数,一般也用默认的就行。 -sampe指的是采样的阈值,如果一个词语在训练样本中出现的频率越大,那么就越会被采样。

-negative 表示负采样参数,每有一个正样本,选择几个负样本的参数,一般也是用默认的。 -binary为1指的是结果二进制存储,为0以文本形式进行存储。

上面这两个参数感觉就是默认的比较好用。

-hs 做不做层次的softmax,是1的时候效果比较好,但是训练会慢一点 -min-count 控制词典大小的参数,如果只想要高频词的话就设置高一点。

参考:https://zhuanlan.zhihu.com/p/31963565

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值