使用Gensim模块训练词向量

使用Gensim模块训练词向量

如果在以词为基本单元输入的自然语言处理任务中,都避免不了使用词的表示,词的表示有很多种,这里主要介绍的就是词向量,word2vec是目前比较通用的训练词向量的工具,使用Gensim模块,可以使词向量的训练变的简单,那么我们知道对于word2vec来说,不论的Skip-Gram models还是CBOW models,他们的输入以及输出都是以单词为基本单位的,只是他们对应的输入以及输出不一样:

1、Skip-Gram models:输入为单个词,输出目标为多个上下文单词;

2、CBOW models:输入为多个上下文单词,输出目标为一个单词;

我们从上面可以看出,无论是Skip-Gram models还是CBOW models基本的单元都是词,那么我们获取到的语料,必须要经过分词处理以后才能用于词向量的训练语料。

1.数据的处理

这里我选用维基百科作为词向量模型的训练语料,如果还不知道怎么去处理维基百科数据,可以参考下面这篇文章,为了效率,我选择了个小的语料,当然对于词向量的训练,语料越大训练出来的结果越好:

得到的中文语料以后,最重要的就是要进行分词的操作了,这里使用jieba分词工具对语料进行精确模式的分词:

import jieba.analyse
import codecs

#以写的方式打开原始的简体中文语料库
# 从文件读取数据
# f=codecs.open('zhwiki_jian_zh.txt','r',encoding="utf8")
# #将分完词的语料写入到wiki_jian_zh_seg-189.5.txt文件中
# target = codecs.open("wiki_jian_zh_seg-189.5.txt", 'w',encoding="utf8")

f=codecs.open('text.txt','r',encoding="utf8")
# 将分完词的语料写入到wiki_jian_zh_seg-189.5.txt文件中
target = codecs.open("wiki_jian_zh_seg-189.5.txt", 'w',encoding="utf8")
print('open files')
line_num=1
# 一行一行读取数据
line = f.readline()
open files
#循环遍历每一行,并对这一行进行分词操作
#如果下一行没有内容的话,就会readline会返回-1,则while -1就会跳出循环
while line:
    
  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值