自然语言处理库—Gensim之Word2vec

最新推荐文章于 2024-06-26 23:32:31 发布

AI算法工程师YC

最新推荐文章于 2024-06-26 23:32:31 发布

阅读量489

点赞数

分类专栏：自然语言处理NLP 深度学习文章标签： Gensim Word2vec

本文链接：https://blog.csdn.net/qq_36134437/article/details/103483644

版权

Gensim是一个开源Python库，用于主题建模和文档相似性处理。本文介绍了如何使用Gensim的Word2vec API进行词向量训练，包括预处理、参数设置，并展示了Word2vec的三种常见应用：查找最相似词、计算词向量相似度和词的分类。

摘要由CSDN通过智能技术生成

1. gensim概述

Gensim（http://pypi.python.org/pypi/gensim）是一款开源的第三方Python工具包，用于从原始的非结构化的文本中，无监督地学习到文本隐层的主题向量表达。主要用于主题建模和文档相似性处理，它支持包括TF-IDF，LSA，LDA，和word2vec在内的多种主题模型算法。Gensim在诸如获取单词的词向量等任务中非常有用。
使用Gensim训练Word2vec十分方便，训练步骤如下：

1）将语料库预处理：一行一个文档或句子，将文档或句子分词（以空格分割，英文可以不用分词，英文单词之间已经由空格分割，中文预料需要使用分词工具进行分词，常见的分词工具有StandNLP、ICTCLAS、Ansj、FudanNLP、HanLP、结巴分词等）；

2）将原始的训练语料转化成一个sentence的迭代器，每一次迭代返回的sentence是一个word（utf8格式）的列表。可以使用Gensim中word2vec.py中的LineSentence()方法实现；

3）将上面处理的结果输入Gensim内建的word2vec对象进行训练即可：

from gensim.models import Word2Vec  
sentences = word2vec.LineSentence('./in_the_name_of_people_segment.txt') 
# in_the_name_of_people_segment.txt 分词之后的文档 
model = Word2Vec(sentences , size=100, window=5, min_count=1, workers=4)

2. gensim word2vec API概述：

在gensim中，word2vec 相关的API都在包gensim.models.word2vec中。和算法有关的参数都在类gensim.models.word2vec. Word2Vec中。算法需要注意的参数有：

class Word2Vec(utils.SaveLoad):    
	def __init__(self, sentences=None, size=100, alpha=0.025, window=5, min_count=5, 
	         max_vocab_size=None, sample=1e-3, seed=1, workers=3, min_alpha=0.0001,
	         sg=0, hs=0, negative=5, cbow_mean=

最低0.47元/天解锁文章

AI算法工程师YC

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
自然语言处理库—Gensim之Word2vec

1. gensim概述Gensim（http://pypi.python.org/pypi/gensim）是一款开源的第三方Python工具包，用于从原始的非结构化的文本中，无监督地学习到文本隐层的主题向量表达。主要用于主题建模和文档相似性处理，它支持包括TF-IDF，LSA，LDA，和word2vec在内的多种主题模型算法。Gensim在诸如获取单词的词向量等任务中非常有用。使用Gensi...
复制链接

扫一扫

专栏目录