word2vec已训练好的模型添加新学习样本问题

最近写论文在看word2vec工具,训练了一个自己的模型出来,网上的资料说到已训练出来的模型word2vec是支持在不重新训练的情况下再继续添加新文本进行训练补充的(online learning),但照网上的方法出现了一些问题

参考博客:

http://qiuqingyu.cn/2017/03/14/Word2vec%E8%AE%AD%E7%BB%83%E5%A5%BD%E7%9A%84%E6%A8%A1%E5%9E%8B%E4%B8%AD%E5%8A%A0%E5%85%A5%E6%96%B0%E8%AF%8D/?tdsourcetag=s_pctim_aiomsg

注意只有train()方法训练出来的模型才能支持继续添加问题,另外一种生成txt或bin的方法不行。

在继续添加文本的时候需要更新词汇表,故缺少build_vocab语句也会导致失败,build_vocab语句要指定参数update=Ture。

之后还报错误需要给出total_example和epochs,这个我认为可能是版本问题和上述博客出现了一些偏差。

我的解决办法:

    # 加载更多语料
    model = Word2Vec.load('dic/model_01')
    moresentence = worcut('dic/train_add.txt')
    model.build_vocab(moresentence,update=True)
    model.train(moresentence,total_examples= model.corpus_count,epochs= model.iter)

经验证,添加的新词出现在词汇表,且原有词的词向量变化了,故添加新语料应是成功了。比较有兴趣的可以研究下这个更新是如何进行的。

  • 3
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 6
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值