自然语言炼丹之路（三之二）筑基丹GloVe（2）

最新推荐文章于 2024-01-26 09:26:45 发布

天元正一

最新推荐文章于 2024-01-26 09:26:45 发布

阅读量124

点赞数

分类专栏：自然语言炼丹之路

本文链接：https://blog.csdn.net/beilop/article/details/111461706

版权

自然语言炼丹之路专栏收录该内容

15 篇文章 2 订阅

订阅专栏

文章目录

我们知道可以通过向量的简单算术运算来表示词间的语法、语义规律，如king-queen=man-woman等。虽然对如何学习到这种规律仍不清楚，但Jeffrey提出了对数双线性回归模型来利用全局统计信息和局部上下文信息更好地学习到这种规律。同时，为了高效训练，只在共现矩阵的非0位置进行训练。
以下仅列出关键步骤推导，想了解更具体的，原文的推导很严谨细致，可以去看看。

（一）基于共现矩阵概率比值的loss

我们知道概率比值的定义如下(上一篇已经说过)：
$F(w_i,w_j,\widetilde{w}_k)=\frac{P_{ik}}{P_{jk}}$
这样表达我们可以更直观看到两个词的差异：
$F(w_i-w_j,\widetilde{w}_k)=\frac{P_{ik}}{P_{jk}}$
通过内积把向量转为标量，使左右等式一致：
$F((w_i-w_j)^T\widetilde{w}_k)=\frac{P_{ik}}{P_{jk}}$
为了优化，令F=exp(),展开求解可得：
$\frac{exp(w_i^T\tilde{w_{k}})}{exp(w_j^T\tilde{w_{k}})}=\frac{P_{ik}}{P_{jk}}$
$又因为P_{ik}=\frac{X_{ik}}{X_i} ,所以w_i^T\tilde{w_{k}}=log(X_{ij})-log(X_i)$
上述式子左边的式子符合交换律，但右边不符合，我们需要引入两个偏执项令左右完全等价，即：
$w_i^T\tilde{w_{k}}+b_i+b_j = log(x_{ik})$
词对出现次数越多，那么这两个词在loss里影响越大。所以loss:
$\sum_{i,j=1}^Vf(x_{ij})(w_i^T\tilde{w_{k}}+b_i+b_j - log(x_{ik}))^2$
这里 $(w_i^T\tilde{w_{k}}+b_i+b_j - log(x_{ik}))^2$ 是平方差形式，即让预测概率和实际概率越接近越好，这项就越小。
（平方差和交叉熵都可用于评价两分布）
而 $f(x_{ij})$ 可以理解为权重，需要满足：
1、 $x_{ij}=0$ 时， $f = 0$ ：即共现次数为0的，不参加训练。
2、是个非减函数，因为共现次数越多，权重越大。
3、不能无限大，以防高频无用词的影响。
$f(x)=\left\{ \begin{array}{c} (\frac{x}{x_{max}})^a,&\text{if $x<x_{max}$} \\ 1, & \text{otherwise} \end{array} \right.$
其中a是个恒大于0的数。

（二）训练步骤

1、生成term-term共现矩阵。
2、去除共现为0的。
3、生成训练集训练。

（三）复杂度

推导有些复杂，就不列出了。
$O(glove)=O(|C|^{0.8}),O(word2vec)=O(|C|)$

（四）参数选择

1、维度选择：一般200维，往后提升效率会越来越慢。
2、窗口选择：
（1）语法任务非对称窗口优于对称窗口，窗口大小选4，因为语法信息一般取决于即时上下文和词序。
（2）语义任务窗口选4，往后提升效率会越来越慢。
3、语料选择：语法任务数据集越大效果越好，语义上维基百科数据更好（仅1.6B）（这是因为维基百科数据实时更新，且百科内容都是相关词在一起）。
4、训练轮次：skip-gram、CBOW一次就ok，GloVe越多越好，但3-6轮后提升效率越来越慢。

（五）成果

1、词对推理任务取得当前最好结果，75%准确率。其中语义81.9%，语法69.3%。
2、在五个词相似度任务，42B数据集上glove均取得最佳，且效果优于CBOW在100B数据集的效果。
3、命名实体识别任务，除了测试集低于HPCA0.4个百分点，其他评价指标均高于当前所有模型。

天元正一

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
自然语言炼丹之路（三之二）筑基丹GloVe（2）

文章目录我们知道可以通过向量的简单算术运算来表示词间的语法、语义规律，如king-queen=man-woman等。虽然对如何学习到这种规律仍不清楚，但Jeffrey提出了对数双线性回归模型来利用全局统计信息和局部上下文信息更好地学习到这种规律。同时，为了高效训练，只在共现矩阵的非0位置进行训练。...
复制链接

扫一扫

专栏目录