自然语言处理库—Gensim之Word2vec

Gensim是一个开源Python库,用于主题建模和文档相似性处理。本文介绍了如何使用Gensim的Word2vec API进行词向量训练,包括预处理、参数设置,并展示了Word2vec的三种常见应用:查找最相似词、计算词向量相似度和词的分类。
摘要由CSDN通过智能技术生成

1. gensim概述

Gensim(http://pypi.python.org/pypi/gensim)是一款开源的第三方Python工具包,用于从原始的非结构化的文本中,无监督地学习到文本隐层的主题向量表达。 主要用于主题建模和文档相似性处理,它支持包括TF-IDF,LSA,LDA,和word2vec在内的多种主题模型算法。Gensim在诸如获取单词的词向量等任务中非常有用。
使用Gensim训练Word2vec十分方便,训练步骤如下:

1)将语料库预处理:一行一个文档或句子,将文档或句子分词(以空格分割,英文可以不用分词,英文单词之间已经由空格分割,中文预料需要使用分词工具进行分词,常见的分词工具有StandNLP、ICTCLAS、Ansj、FudanNLP、HanLP、结巴分词等);

2)将原始的训练语料转化成一个sentence的迭代器,每一次迭代返回的sentence是一个word(utf8格式)的列表。可以使用Gensim中word2vec.py中的LineSentence()方法实现;

3)将上面处理的结果输入Gensim内建的word2vec对象进行训练即可:

from gensim.models import Word2Vec  
sentences = word2vec.LineSentence('./in_the_name_of_people_segment.txt') 
# in_the_name_of_people_segment.txt 分词之后的文档 
model = Word2Vec(sentences , size=100, window=5, min_count=1, workers=4)

2. gensim word2vec API概述:

在gensim中,word2vec 相关的API都在包gensim.models.word2vec中。和算法有关的参数都在类gensim.models.word2vec. Word2Vec中。算法需要注意的参数有:

class Word2Vec(utils.SaveLoad):    
	def __init__(self, sentences=None, size=100, alpha=0.025, window=5, min_count=5, 
	         max_vocab_size=None, sample=1e-3, seed=1, workers=3, min_alpha=0.0001,
	         sg=0, hs=0, negative=5, cbow_mean=
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值