word2vec模型训练
前言
整体索引在此
书蕴——基于书评的人工智能推荐系统
上次把文本进行了预处理,主要是使用正则去除标签以及对文本去除停用词以及结巴分词。
后续还会加入tf-idf来动态选取停用词。
word2vec模型训练
word2vec简介
关于word2vec到底是什么,推荐一个链接:DL4J,有对理解帮助很大的图文
虽然链接里的word2vec是java写的,和我们用的python word2vec不太一致,但思想上是一致的,而且文章具有深度的科研性以及广度的科普性,值得一看。
gensim
gensim是python的一个包,包含word2vec。不过安装起来相对麻烦,需要scipy和numpy依赖,最简单的安装方案是去anaconda下载python3,自带这些包。
我是先手动去找的依赖,然后一个小细节上的问题是:numpy不能直接安装,要去下载官网上写了+mkl的版本(比如我的是1.13.1+mkl)不知道后续的版本有没有更新解决问题。其余的还算顺利。
当时也很着急,就先下了anaconda,不得不说的确效率而且快速,直接就可以使用。
正式使用
各种使用姿势我参考了很多,我特别懒,不细说怎么训练了,直接放链接。
如果是新手,建议按照从上到下的顺序食用,不推荐一次性看完,如果只是想使用的话,看到参数和官方文档就足够了。