中文word2vec的python实现_基于Word2Vec的相似度计算（python）-Go语言中文社区-CSDN博客

本文链接：https://blog.csdn.net/weixin_39805087/article/details/113690981

本文介绍了如何使用Python的Gensim库实现中文word2vec，讲解了词向量、语言模型和Gensim模块的基础知识，重点展示了预处理语料、模型训练过程，以及相似度计算和对应关系查找的实验。通过训练wiki百科数据，得到300维词向量，实验表明模型能有效计算词的相似度。

摘要由CSDN通过智能技术生成

前言

此篇文章的基础知识部分总结了一些别人的文章解释，环境为Windows10下的python3.5版本，需要的包为gensim。代码很简要，不足之处请说明。

一．背景知识

1.1词向量

词向量(word2vec)是一个将单词转换成向量形式的工具。可以把对文本内容的处理简化为向量空间中的向量运算，计算出向量空间上的相似度，来表示文本语义上的相似度。

在自然语言处理(NLP)相关任务中，要将自然语言交给机器学习中的算法来处理，通常需要首先将语言数学化，因为机器不是人，机器只认数学符号。向量是人把自然界的东西抽象出来交给机器处理的东西，基本上可以说向量是人对机器输入的主要方式了。

词向量就是用来将语言中的词进行数学化的一种方式，顾名思义，词向量就是把一个词表示成一个向量。NLP 中最直观，也是到目前为止最常用的词表示方法是 One-hot Representation，这种方法把每个词表示为一个很长的向量。这个向量的维度是词表大小，其中绝大多数元素为 0，只有一个维度的值为 1，这个维度就代表了当前的词。在word2vec中则采用分布式表征，在向量维数比较大的情况下，每一个词都可以用元素的分布式权重来表示，因此，向量的每一维都表示一个特征向量，作用于所有的单词，而不是简单的元素和值之间的一一映射。

word2vec中包含了对两种模型的训练，C-BOW模型和Gensim模型。在训练每种模型的时候又分HS和NEG两种方法。除了google自己的word2vec工具，也有其它各自不同的版本。其中比较好用的是Python Gensim主题模型包中的word2vec,但通过python版本只实现了skip-gram模型