使用Gensim模块训练词向量

最新推荐文章于 2024-05-25 14:31:47 发布

happy_wealthy

最新推荐文章于 2024-05-25 14:31:47 发布

阅读量690

点赞数 1

本文链接：https://blog.csdn.net/happy_wealthy/article/details/108048440

版权

使用Gensim模块训练词向量

如果在以词为基本单元输入的自然语言处理任务中，都避免不了使用词的表示，词的表示有很多种，这里主要介绍的就是词向量，word2vec是目前比较通用的训练词向量的工具，使用Gensim模块，可以使词向量的训练变的简单，那么我们知道对于word2vec来说，不论的Skip-Gram models还是CBOW models，他们的输入以及输出都是以单词为基本单位的，只是他们对应的输入以及输出不一样：

1、Skip-Gram models：输入为单个词，输出目标为多个上下文单词；

2、CBOW models：输入为多个上下文单词，输出目标为一个单词；

我们从上面可以看出，无论是Skip-Gram models还是CBOW models基本的单元都是词，那么我们获取到的语料，必须要经过分词处理以后才能用于词向量的训练语料。

1.数据的处理

这里我选用维基百科作为词向量模型的训练语料，如果还不知道怎么去处理维基百科数据，可以参考下面这篇文章，为了效率，我选择了个小的语料，当然对于词向量的训练，语料越大训练出来的结果越好：

得到的中文语料以后，最重要的就是要进行分词的操作了，这里使用jieba分词工具对语料进行精确模式的分词：

import jieba.analyse
import codecs

#以写的方式打开原始的简体中文语料库
# 从文件读取数据
# f=codecs.open('zhwiki_jian_zh.txt','r',encoding="utf8")
# #将分完词的语料写入到wiki_jian_zh_seg-189.5.txt文件中
# target = codecs.open("wiki_jian_zh_seg-189.5.txt", 'w',encoding="utf8")

f=codecs.open('text.txt','r',encoding="utf8")
# 将分完词的语料写入到wiki_jian_zh_seg-189.5.txt文件中
target = codecs.open("wiki_jian_zh_seg-189.5.txt", 'w',encoding="utf8")
print('open files')
line_num=1
# 一行一行读取数据
line = f.readline()

open files

#循环遍历每一行，并对这一行进行分词操作
#如果下一行没有内容的话，就会readline会返回-1，则while -1就会跳出循环
while line:

最低0.47元/天解锁文章

happy_wealthy

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
使用Gensim模块训练词向量

使用Gensim模块训练词向量如果在以词为基本单元输入的自然语言处理任务中，都避免不了使用词的表示，词的表示有很多种，这里主要介绍的就是词向量，word2vec是目前比较通用的训练词向量的工具，使用Gensim模块，可以使词向量的训练变的简单，那么我们知道对于word2vec来说，不论的Skip-Gram models还是CBOW models，他们的输入以及输出都是以单词为基本单位的，只是他们对应的输入以及输出不一样：1、Skip-Gram models：输入为单个词，输出目标为多个上下文单词；2、
复制链接

扫一扫