word2vec是google的开源文本处理工具,可以将词处理成向量变成神经网络的输入。word2vec官网
其中提供了一个text8英文语料供我们学习。下载地址:http://mattmahoney.net/dc/text8.zip
网上有很多教我们处理维基百科里面的数据然后变成我们的学习语料的,感兴趣的可以去试试。
该text8语料编码格式UTF-8,所有的数据存储为一行,没有标点符号。我们也可以自己按照这个格式来造数据。
首先安装gensim,word2vec是gensim的一个子模块。
pip3 install --upgrade gensim
训练模型。
from gensim.models.keyedvectors import KeyedVectors
from gensim.models import word2vec
import logging
logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO)
sentences = word2vec.Text8Corpus("text8") # 加载语料
model = word2vec.Word2Vec(sentences, size=200, windows=5, min_count=5)
# min-count 表示设置最低频率,默认为5,如果一个词语在文档中出现的次数小于该阈值,那么该词就会被舍弃
# size代表词词向量的维度
完成的参数列表