GloVe: Global Vectors for Word Representation 阅读笔记

最新推荐文章于 2024-07-12 13:29:05 发布

rd142857

最新推荐文章于 2024-07-12 13:29:05 发布

阅读量220

点赞数

分类专栏： nlp 文章标签： nlp glove

本文链接：https://blog.csdn.net/rd142857/article/details/125684160

版权

nlp 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

刚开始学cs224n，~~虽然manning很可爱讲得也很慢但还是~~ 听不懂，读完阅读材料感觉好了不少。
贴个pdf

算法

共现概率比例

共现矩阵中概率的比例可以编码词的meaning components

比如对于一个跟词i很接近但是跟词j不接近的词k， $P_{ik}/P_{jk}$ 应当很大；如果k跟词j很接近但是跟i不接近，那么 $P_{ik}/P_{jk}$ 应该很小；如果k跟两个词都很接近或者都不太接近，那么 $P_{ik}/P_{jk}$ 应该接近于1。记为
$F(w_i,w_j,\tilde w_k)=\frac{P_{ik}}{P_{jk}}$

Log-bilinear model

作者希望F可以将这个概率比例的信息编码到词向量空间，而词向量空间是线性空间，所以我们可以基于向量的差距改写F，

$F(w_i-w_j,\tilde w_k)=\frac{P_{ik}}{P_{jk}}$

并且，函数的输入是向量，而输出是标量。理论上可以将F定义为一个类似于神经网络的函数，但为了保留线性的性质和防止混淆向量维数，作者使用点积

$F((w_i-w_j)^T\tilde w_k)=\frac{P_{ik}}{P_{jk}}$

考虑到在共现矩阵中，一个词可以作为中心词和上下文交换出现，因此词向量需要满足 $w\leftrightarrow \tilde w$ ，共现矩阵需要满足 $X\leftrightarrow X^T$ .为了达到这种对称性，（下面这段没看懂）需要F在两个组 $(R,+),(R_{>0},\times)$ 上同构
$F((w_i-w_j)^T\tilde w_k)=\frac{F(w_i^T\tilde w_k)}{F(w_j^T\tilde w_k)}$

满足上述形式的函数是指数函数，因此函数的输入就是输出（P）取log，

$w_i^T \tilde w_k=\log (P_{ik})=\log (X_{ik})-\log (X_{i})$

如果没有减去的 $log (X_i)$ ，上式就对称了。由于它与k无关，所以可以被吸收到词向量 $w_i$ 的偏置项中去。再加入一个词向量 $\tilde w_k$ 的偏置项，就得到了对称表达

$w_i^T \tilde w_k+b_i+\tilde b_k=\log (X_{ik})$

由于log在参数靠近0的地方发散，可以为此添加1。

这称为Log-bilinear model，即有两个线性的算子。这种模型用两个词向量的点积衡量共现概率，大义为 $w_i\cdot w_j=\log P(i|j)$ 。

最小二乘回归

log-bilinear模型事实上依然均等地考虑了整个共现矩阵，即使共现矩阵是非常稀疏的，但显然经常出现在一起的词组含有更多的信息。
$w_i^T \tilde w_k+b_i+\tilde b_k=\log (X_{ik})$

可以将上式视作最小二乘问题，为此定义一个损失函数，衡量LHS和RHS的差距，并引入权重系数 $f(X_{ij})$

$J=\sum_{i,j=1}^V f(X_{ij})(w_i^T w_j+b_i+\tilde b_j-\log X_{ij})^2$

由于同样的pair(word i, word j)可能出现多次，所以直接以 $X_{ij}$ 为权重。但我们不希望过于常见的词，比如功能词，的权重太大，所以对 $X_{ij}$ 进行映射

$\begin{cases} (x/x_{max})^{\alpha} & if \ x<x_{max} \\ 1 & otherwise \end{cases}$

在这里插入图片描述

以削弱它们的作用。

$f(X_{ij})$ 需要满足的要求如下

在这里插入图片描述

与其他算法的对比

以skip-gram中的negative-softmax方法为例， $Q_{ij}$ 表示词j在词i的上下文中出现的概率大小，使用softmax

$Q_{ij}=\frac{\exp {(w_i^T\tilde w_j)}}{\sum_{k=1}^V \exp {(w_k^T\tilde w_j)}}$

最小化负log损失函数，并将ij相同的组合并，

$J=-\sum_i\sum_j X_{ij}\log Q_{ij}$

根据 $X_i=\sum_k X_k, P_{ij}=X_{ij}/X_i$ ，

$J=-\sum_i X_i\sum_j P_{ij}\log Q_{ij}=-\sum_i X_i H(P_{i},Q_{i})$

H为分布P和Q的交叉熵。但这样运算量太大了，依然可以用最小二乘处理，以略去规范项（分母）

$\hat J=-\sum_{i,j} X_i (\hat P_{ij}-\hat Q_{ij})^2$

其中
$\hat P_{ij}=X_{ij},\quad \hat Q_{ij}=\exp {(w_i^T\tilde w_j)}$

但 $X_{ij}$ 可能很大，所以把他们都log一下，再把 $X_{ij}$ 映射一下，

$\begin{aligned} \hat J &= -\sum_{i,j} X_i (\log\hat P_{ij}-\log\hat Q_{ij})^2 \\ &= -\sum_{i,j} X_i (w_i^T\tilde w_j-\log X_{ij})^2 \end{aligned}$
$\hat J= -\sum_{i,j} f(X_{ij}) (w_i^T\tilde w_j-\log X_{ij})^2$

和glove的损失函数相比只差一个偏置项

rd142857

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
GloVe: Global Vectors for Word Representation 阅读笔记

刚开始学cs224n，虽然manning很可爱讲得也很慢但还是听不懂，读完阅读材料感觉好了不少。贴个pdf共现矩阵中概率的比例可以编码词的meaning components比如对于一个跟词i很接近但是跟词j不接近的词k， Pik/PjkP_{ik}/P_{jk}Pik/Pjk 应当很大；如果k跟词j很接近但是跟i不接近，那么 Pik/PjkP_{ik}/P_{jk}Pik/Pjk 应该很小；如果k跟两个词都很接近或者都不太接近，那么 Pik/PjkP_{ik}/P_{jk}Pik/Pjk
复制链接

扫一扫