[书蕴笔记-1]word2vec模型训练

word2vec模型训练

前言

整体索引在此
书蕴——基于书评的人工智能推荐系统

上次把文本进行了预处理,主要是使用正则去除标签以及对文本去除停用词以及结巴分词。
后续还会加入tf-idf来动态选取停用词。

word2vec模型训练

word2vec简介

关于word2vec到底是什么,推荐一个链接:DL4J,有对理解帮助很大的图文
虽然链接里的word2vec是java写的,和我们用的python word2vec不太一致,但思想上是一致的,而且文章具有深度的科研性以及广度的科普性,值得一看。

gensim

gensim是python的一个包,包含word2vec。不过安装起来相对麻烦,需要scipy和numpy依赖,最简单的安装方案是去anaconda下载python3,自带这些包。

我是先手动去找的依赖,然后一个小细节上的问题是:numpy不能直接安装,要去下载官网上写了+mkl的版本(比如我的是1.13.1+mkl)不知道后续的版本有没有更新解决问题。其余的还算顺利。
当时也很着急,就先下了anaconda,不得不说的确效率而且快速,直接就可以使用。

正式使用

各种使用姿势我参考了很多,我特别懒,不细说怎么训练了,直接放链接。
如果是新手,建议按照从上到下的顺序食用,不推荐一次性看完,如果只是想使用的话,看到参数和官方文档就足够了。

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值