【Graph Embedding】GloVe：如何从大规模语料中快速训练词向量

最新推荐文章于 2023-03-16 23:22:08 发布

阿泽的学习笔记

最新推荐文章于 2023-03-16 23:22:08 发布

阅读量605

点赞数

分类专栏：自然语言处理推荐系统文章标签：算法机器学习人工智能深度学习 Glove

本文链接：https://blog.csdn.net/qq_27075943/article/details/104349960

版权

本文介绍了GloVe模型，它综合了LSA的全局统计信息和Word2Vec的简单高效，通过加权最小二乘法解决词向量训练问题。GloVe通过修改代价函数，将Word2Vec的局部信息纳入考虑，实现了对词向量的快速训练，同时在实验中表现出与Word2Vec相当的效果。

摘要由CSDN通过智能技术生成

1. Introduction

今天学的论文是斯坦福大学 2014 年的工作《GloVe: Global Vectors for Word Representation》，在当时有两种主流的 Word Embedding 方式，一种是 LSA，创建词频矩阵，利用 SVD 分解得到词向量；另一种是 13 年提出的 Word2Vec，基于滑动窗口的浅层神经网络。前者的优点是利用了全局的统计信息（共现矩阵），后者的优点是计算简单且效果好 = =，但缺点是没利用全局的统计信息。所以这篇论文的主要工作是想综合两者的优点。

在看论文前我们不妨来思考一下，如果你是研究员，现在有这样的想法（综合全局信息和局部信息），你该如何去实现？

2. GloVe Model

2.1 Weighted Least Squares

我们先来给些定义，另 X 为词与词的共现矩阵， $X_{ij}$ 表示单词 j 出现在单词 i 上下文中的次数。于是我们有单词 j 出现在单词 i 上下文的共现概率：
$P_{ij} = P(j|i) = \frac{X_{ij}}{X_i} \\$
我们观察下表的共现概率，只看第一行第二行我们能看出 ice 和 stream 与 solid gas water fashion 等词的相关性吗？答案是否定的，但如果我们使用比值 $\frac{P(k|ice)}{P(k|steam)}$ 就可以很直观的看到其相关性：

当 k = solid 时，其值为 8.9，则表明，ice 与 solid 更相关；
当 k = gas 时，其值为 $8.5 \times 10^{-2}$ ，所以 steam 与 gas 更相关；
当值为 1 左右时，表明 ice 和 steam 与目标单词 k 都相关或者都不相关。

Co-occurrence Probabilities

从上面的表述中我们看出，比值更能反映相关性，而不是共现单词概率。所以我们有：
$F(w_i,w_j,\widetilde w_k) = \frac{P_{ik}}{P_{jk}} \\$
其中， $w_i$ 表示单词 i 的词向量， $\widetilde w_k$ 是独立的上下文向量将在后面进行介绍，F 可以视为一种映射或是一种运算。

我们再来看下上面的等式，一个很直观的感觉就是 F 可能取值很广。不过不要紧，我们现在给它加些约束。由于向量空间是线形的，所以可以使用向量差：
$F(w_i-w_j,\widetilde w_k) = \frac{P_{ik}}{P_{jk}} \\$
为了保证混合向量的维度不变，我们再做个点乘：
$F\big((w_i-w_j)^T\widetilde w_k \big) = \frac{P_{ik}}{P_{jk}} \\$
实际中，单词和共现单词是可以可交换的，现在的等式不满足交换律。

为了保证交换律，我们先让 F 保证为群 $(R, +)$ 到群 $(R_{>0}, \times)$ 的群同态：
$F\big((w_i-w_j)^T \widetilde w_k\big) = F\big(w_i^T \widetilde w_k-w_j^T \widetilde w_k\big) = \frac{F(w_i^T \widetilde w_k)}{F(w_k^T \widetilde w_k)} \\$

最低0.47元/天解锁文章

阿泽的学习笔记

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
【Graph Embedding】GloVe：如何从大规模语料中快速训练词向量

1. Introduction今天学的论文是斯坦福大学 2014 年的工作《GloVe: Global Vectors for Word Representation》，在当时有两种主流的 Word Embedding 方式，一种是 LSA，创建词频矩阵，利用 SVD 分解得到词向量；另一种是 13 年提出的 Word2Vec，基于滑动窗口的浅层神经网络。前者的优点是利用了全局的统计信息（共现矩...
复制链接

扫一扫

专栏目录