四步理解GloVe！(附代码实现)

最新推荐文章于 2024-03-15 17:00:30 发布

mantchs

最新推荐文章于 2024-03-15 17:00:30 发布

阅读量4.6k

点赞数 9

分类专栏： machine learning 文章标签： GloVe 词嵌入 Word2Vec NLP 机器学习

本文链接：https://blog.csdn.net/weixin_41510260/article/details/100049700

版权

本文详细介绍了GloVe（Global Vectors for Word Representation）的原理和实现步骤，包括构建共现矩阵、词向量与共现矩阵的近似关系、损失函数的构造，以及与LSA、Word2Vec的比较。通过代码实现，展示了如何训练GloVe模型，并生成词向量。

摘要由CSDN通过智能技术生成

文章目录

1. 说说GloVe

正如GloVe论文的标题而言，**GloVe的全称叫Global Vectors for Word Representation，它是一个基于全局词频统计（count-based & overall statistics）的词表征（word representation）工具，它可以把一个单词表达成一个由实数组成的向量，这些向量捕捉到了单词之间一些语义特性，比如相似性（similarity）、类比性（analogy）等。**我们通过对向量的运算，比如欧几里得距离或者cosine相似度，可以计算出两个单词之间的语义相似性。

2. GloVe的实现步骤

2.1 构建共现矩阵

什么是共现矩阵？

共现矩阵顾名思义就是共同出现的意思，词文档的共现矩阵主要用于发现主题(topic)，用于主题模型，如LSA。

局域窗中的word-word共现矩阵可以挖掘语法和语义信息，例如：

I like deep learning.
I like NLP.
I enjoy flying

有以上三句话，设置滑窗为2，可以得到一个词典：{“I like”,“like deep”,“deep learning”,“like NLP”,“I enjoy”,“enjoy flying”,“I like”}。

我们可以得到一个共现矩阵(对称矩阵)：

中间的每个格子表示的是行和列组成的词组在词典中共同出现的次数，也就体现了共现的特性。

GloVe的共现矩阵

根据语料库（corpus）构建一个共现矩阵（Co-ocurrence Matrix）X，矩阵中的每一个元素 Xij 代表单词 i 和上下文单词 j 在特定大小的上下文窗口（context window）内共同出现的次数。一般而言，这个次数的最小单位是1，但是GloVe不这么认为：它根据两个单词在上下文窗口的距离 d，提出了一个衰减函数（decreasing weighting）：decay=1/d 用于计算权重，也就是说距离越远的两个单词所占总计数（total count）的权重越小。