基于Python的自然语言处理系列（4）：GloVe（使用Gensim）

会飞的Anthony

于 2024-09-11 00:45:00 发布

阅读量683

点赞数 12

分类专栏：人工智能信息系统自然语言处理文章标签：自然语言处理人工智能

本文链接：https://blog.csdn.net/ljd939952281/article/details/141940251

版权

人工智能同时被 3 个专栏收录

181 篇文章 4 订阅

订阅专栏

信息系统

150 篇文章 0 订阅

订阅专栏

自然语言处理

55 篇文章 1 订阅

订阅专栏

在本系列的第四篇文章中，我们将探讨如何使用Gensim库来处理GloVe词向量。Gensim是一个用于文本相似度建模的高效工具，它虽然不是深度学习库，但在词向量和文本相似度建模方面表现出色。我们将演示如何使用Gensim加载和操作GloVe词向量，并展示如何计算词向量的相似性。

1. 使用Gensim处理GloVe词向量

1.1 准备工作

首先，我们需要从Stanford的GloVe页面下载GloVe词向量文件。我们将使用“glove.6B.zip”中的100维词向量文件。下载后，解压该文件以获取glove.6B.100d.txt。

1.2 加载GloVe词向量

Gensim提供了一个方便的脚本glove2word2vec，可以将GloVe格式的词向量转换为Word2Vec格式，以便在Gensim中加载和使用。

from gensim.test.utils import datapath
from gensim.models import KeyedVectors
from gensim.scripts.glove2word2vec import glove2word2vec

# 文件路径
glove_file = datapath('glove.6B.100d.txt')

# 转换GloVe格式为Word2Vec格式
word2vec_file = 'glove.6B.100d.word2vec.txt'
glove2word2vec(glove_file, word2vec_file)

# 加载词向量模型
model = KeyedVectors.load_word2vec_format(word2vec_file, binary=False, no_header=True)

1.3 词向量操作

一旦加载了GloVe词向量模型，我们可以进行各种操作，比如获取词向量、计算相似性等。

1.3.1 获取词向量

获取某个词的词向量，并查看其维度：

# 获取词向量的维度
vector_shape = model['coffee'].shape
print(vector_shape)

1.3.2 计算词语相似性

可以计算与给定词最相似的词汇：

# 计算与“obama”最相似的词汇
print(model.most_similar('obama'))

# 计算与“coke”最相似的词汇
print(model.most_similar('coke'))

# 计算与“banana”最相似的词汇
print(model.most_similar('banana'))

# 计算与“language”最相似的词汇
print(model.most_similar('language'))

# 处理多义词
print(model.most_similar("plant"))

# 计算负样本的相似性
print(model.most_similar(negative=['banana']))

# 计算词向量的向量运算
result = model.most_similar(positive=['woman', 'king'], negative=['man'])
print("{}: {:.4f}".format(*result[0]))