基于Word2Vec的相似度计算（python）

最新推荐文章于 2025-03-11 12:37:10 发布

Cuzur

最新推荐文章于 2025-03-11 12:37:10 发布

阅读量4.6w

点赞数 13

分类专栏：机器学习文章标签： python word2vec gensim 词向量

本文链接：https://blog.csdn.net/qq_41814556/article/details/80990976

版权

机器学习专栏收录该内容

1 篇文章

订阅专栏

前言

此篇文章的基础知识部分总结了一些别人的文章解释，环境为Windows10下的python3.5版本，需要的包为gensim。代码很简要，不足之处请说明。

一．背景知识

1.1词向量

词向量（word2vec）是一个将单词转换成向量形式的工具。可以把对文本内容的处理简化为向量空间中的向量运算，计算出向量空间上的相似度，来表示文本语义上的相似度。

在自然语言处理（NLP）相关任务中，要将自然语言交给机器学习中的算法来处理，通常需要首先将语言数学化，因为机器不是人，机器只认数学符号。向量是人把自然界的东西抽象出来交给机器处理的东西，基本上可以说向量是人对机器输入的主要方式了。

词向量就是用来将语言中的词进行数学化的一种方式，顾名思义，词向量就是把一个词表示成一个向量。NLP 中最直观，也是到目前为止最常用的词表示方法是 One-hot Representation，这种方法把每个词表示为一个很长的向量。这个向量的维度是词表大小，其中绝大多数元素为 0，只有一个维度的值为 1，这个维度就代表了当前的词。在word2vec中则采用分布式表征，在向量维数比较大的情况下，每一个词都可以用元素的分布式权重来表示，因此，向量的每一维都表示一个特征向量，作用于所有的单词，而不是简单的元素和值之间的一一映射。

word2vec中包含了对两种模型的训练，C-BOW模型和Gensim模型。在训练每种模型的时候又分HS和NEG两种方法。除了google自己的word2vec工具，也有其它各自不同的版本。其中比较好用的是Python Gensim主题模型包中的word2vec,但通过python版本只实现了skip-gram模型，并且只实现了通过分层softmax方法对其训练，并没有使用negative sampling。

1.2语言模型

语言模型包括文法语言模型和统计语言模型。一般我们指的是统计语言模型。统计语言模型：统计语言模型把语言（词的序列）看作一个随机事件，并赋予相应的概率来描述其属于某种语言集合的可能性。给定一个词汇集合 V，对于一个由 V 中的词构成的序列S = 〈w1, · · · , wT 〉 ∈ Vn，统计语言模型赋予这个序列一个概率P(S)，来衡量S 符合自然语言的语法和语义规则的置信度。用一句简单的话说，语言模型就是计算一个句子的概率大小。常见的统计语言模型有N元文法模型（N-gram Model），最常见的是unigram model、bigram model、trigram model等等。形式化讲，统计语言模型的作用是为一个长度为 m 的字符串确定一个概率分布 P(w1; w2; :::; wm)，表示其存在的可能性，其中 w1 到 wm 依次表示这段文本中的各个词。本文所用到的语言模型为skip-gram，skip-gram模型的输入是一个单词wIwI，它的输出是wIwI的上下文wO,1,...,wO,CwO,1,...,wO,C，上下文的窗口大小为CC。

1.3 Gensim模块

本文用python进行预料的训练，其中用到模块Gensim，是一款开源的第三方Python工具包，用于从原始的非结构化的文本中，无监督地学习到文本隐层的主题向量表达。它支持包括TF-IDF，LSA，LDA，和word2vec在内的多种主题模型算法，支持流式训练，并提供了诸如相似度计算，信息检索等一些常用任务的API接口。

二．训练预料的预处理

练语料的预处理指的是将文档中原始的字符文本转换成Gensim模型所能理解的稀疏向量的过程。Gensim的word2vec的输入是句子的序列. 每个句子是一个单词列表。

通常，我们要处理的原生语料是一堆文档的集合，每一篇文档又是一些原生字符的集合。在交给Gensim的模型训练之前，我们需要将这些原生字符解析成Gensim能处理的稀疏向量的格式。由于语言和应用的多样性，Gensim没有对预处理的接口做出任何强制性的限定。通常，我们需要先对原始的文本进行分词、去除停用词等操作，得到每一篇文档的特征列表。

本文的语料来源为wiki百科，共2M大小，选用Hanlp汉语分词系统进行文档的分词，

原始数据分词后，并去除词性标注以及停用词。

得到的使用数据结果如下图：

Hanlp分词的主要代码如下图：

三．模型训练

3.1 代码以及参数设置

模型训练用到了pythpn中的Gensim模块，Gensim只要求输入按顺序提供句子, 并不将这些句子存储在内存, 然后Gensim可以加载一个句子, 处理该句子, 然后加载下一个句子.

Word2vec有很多可以影响训练速度和质量的参数：

（1） sg=1是skip-gram算法，对低频词敏感，默认sg=0为CBOW算法，所以此处设置为1。

（2） min_count是对词进行过滤，频率小于min-count的单词则会被忽视，默认值为5。

（3） size是输出词向量的维数，即神经网络的隐藏层的单元数。值太小会导致词映射因为冲突而影响结果，值太大则会耗内存并使算法计算变慢，大的size需要更多的训练数据, 但是效果会更好，在本文中设置的size值为300维度。

（4） window是句子中当前词与目标词之间的最大距离，即为窗口。本文设置窗口移动的大小为5。

（5） negative和sample可根据训练结果进行微调，sample表示更高频率的词被随机下采样到所设置的阈值，默认值为1e-3。

（6） hs=1表示层级softmax将会被使用，默认hs=0且negative不为0，则负采样将会被选择使用。

（7）最后一个主要的参数控制训练的并行:worker参数只有在安装了Cython后才有效，由于本文没有安装Cython的, 使用的单核。

通过查看程序运行的日志记录，可看到参数设置如下所示：

实现代码如下：

# -*- coding: utf-8 -*-
import warnings
warnings.filterwarnings(action='ignore', category=UserWarning, module='gensim')
from gensim.models import word2vec
import logging

# 主程序
logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO)
sentences = word2vec.Text8Corpus(u"D:\wiki\语料.txt")  # 加载语料
n_dim=300
 # 训练skip-gram模型; 
model = word2vec.Word2Vec(sentences, size=n_dim, min_count=5,sg=1) 
# 计算两个词的相似度/相关程度
y1 = model.similarity(u"陕西省", u"山西省")
print(y1)
print("--------")
# 寻找对应关系
print(u"计算机-智能，速度-")
y3 = model.most_similar([u'智能', u'速度'], [u'计算机'], topn=3)
for item in y3:
    print(item[0], item[1])

3.2存储和加载模型

存储、加载模型可以在加载模型之后继续使用句子来进一步训练模型。存储、加载模型的方法如下:

3.3实验

本文进行了两项实验，一个是计算两个词的相似度/相关程度,另一个是通过给定的词语序列关系去寻找其它词语间的对应关系。本文计算了“陕西省”和“山西省”的相关程度，并且给定（计算机-智能，速度-）这样的一组关系得到了另一组关系，根据原有预料所训练的模型，实验结果如下如所示，可以看出“山西省”和“陕西省”的相似度很高约为0.954，同时通过给定的关系得出（水资源—降水，明显）这样一组关系

四．总结

通过本次实验，了解到神经网络在自然语言中的运用，通过将语言数学化，达到计算机可以识别的地步。向量是人把自然界的东西抽象出来交给机器处理的东西，基本上可以说向量是人对机器输入的主要方式了。在本次试验中用到word2vct工具来计算相似度和寻找对应关系组，Word2vec包换两种语言模型一个是词袋模型另一个是skip-gram模型，但是这里用python进行编程，python版本下只有skip-gram模型，所以本文通过skip-gram来输出词语的权重，即300维的词向量。在输入数据之前，要对数据进行分词处理并去除停用词。模型训练完毕后，保存模型以便后续的使用或者完善。此次试验，加深了我对词向量的理解和运用，对于计算相似度的方法有了新的认识。