使用Gensim模块训练词向量
如果在以词为基本单元输入的自然语言处理任务中,都避免不了使用词的表示,词的表示有很多种,这里主要介绍的就是词向量,word2vec是目前比较通用的训练词向量的工具,使用Gensim模块,可以使词向量的训练变的简单,那么我们知道对于word2vec来说,不论的Skip-Gram models还是CBOW models,他们的输入以及输出都是以单词为基本单位的,只是他们对应的输入以及输出不一样:
1、Skip-Gram models:输入为单个词,输出目标为多个上下文单词;
2、CBOW models:输入为多个上下文单词,输出目标为一个单词;
我们从上面可以看出,无论是Skip-Gram models还是CBOW models基本的单元都是词,那么我们获取到的语料,必须要经过分词处理以后才能用于词向量的训练语料。
1.数据的处理
这里我选用维基百科作为词向量模型的训练语料,如果还不知道怎么去处理维基百科数据,可以参考下面这篇文章,为了效率,我选择了个小的语料,当然对于词向量的训练,语料越大训练出来的结果越好:
得到的中文语料以后,最重要的就是要进行分词的操作了,这里使用jieba分词工具对语料进行精确模式的分词:
import jieba.analyse
import codecs
#以写的方式打开原始的简体中文语料库
# 从文件读取数据
# f=codecs.open('zhwiki_jian_zh.txt','r',encoding="utf8")
# #将分完词的语料写入到wiki_jian_zh_seg-189.5.txt文件中
# target = codecs.open("wiki_jian_zh_seg-189.5.txt", 'w',encoding="utf8")
f=codecs.open('text.txt','r',encoding="utf8")
# 将分完词的语料写入到wiki_jian_zh_seg-189.5.txt文件中
target = codecs.open("wiki_jian_zh_seg-189.5.txt", 'w',encoding="utf8")
print('open files')
line_num=1
# 一行一行读取数据
line = f.readline()
open files
#循环遍历每一行,并对这一行进行分词操作
#如果下一行没有内容的话,就会readline会返回-1,则while -1就会跳出循环
while line: