On the Dimensionality of Word Embedding论文解读

基本信息

作者Zi Yindoi10.3115/v1/D14-1162
发表时间2018期刊NIPS
网址https://arxiv.org/abs/1812.04224

研究背景

1. What’s known 既往研究已证实
词嵌入的一元不变性。
多数的词嵌入算法本质上都是矩阵分解。

2. What’s new 创新点
提出了 Pairwise Inner Product(PIP)损失函数。
提出了一种新的词嵌入不相似度度量——对内积损失。
从理论上证明了 Word2Vec 和 GloVe 对过拟合具有鲁棒性。
通过最小化 PIP 损失函数提出了选择最优维度的理论指导。

3. What’s are the implications 意义
目前的研究中并无词嵌入的损失函数。而且就算此类损失函数存在,我们也不知道有没有有效的方法去计算它。
本文解决了这两方面的问题,并建立起一套基于矩阵微扰理论的维度选择框架。

研究方法

1. PIP损失函数
如何知道一个训练好的词嵌入是否足够好,我们需要定义损失函数。
如何定义词嵌入的损失函数:着重测量词嵌入酉不变性质之间的距离。PIP 损失就是这样的一个损失函数。
在这里插入图片描述
PIP损失测量了向量在E1和E2之间的相对位置位移,从而消除了它们对任何特定坐标系的依赖。PIP损失服从酉不变性。

2. 酉不变(unitary invariant)性质
酉变换不改变向量之间的相对位置。
语义学的基础是分布式假设,而该假设要求一个词的意义只能通过其他词来相对定义。如果我们对词嵌入实施了一个保持向量间相对位置的变换(即酉变换),向量所对应的语义学任务不应有任何改变。

3. 对 PIP 损失函数的矩阵微扰分析
多数的词嵌入算法本质上都是矩阵分解。
我们将词嵌入转化为带噪音的矩阵分解问题。 PIP 损失分解为三项:其中第一项为偏差,第二和第三项均为方差。
在这里插入图片描述
这三项也对应了一个基于信噪比的解释:
● 第一项:当我们选择一个 k 维的词嵌入时,我们丢失了 k+1 维及之后的信号,这导致了模型产生偏差。该项随着 k 的增大而减小。
● 第二项:噪音的存在导致我们对信号矩阵谱的大小产生估计误差。随着 k 的增大,更多的谱信号被引入,导致该项随着 k 的增大而增加。
● 第三项:同样由于噪音的存在,我们对信号矩阵谱的方向产生估计误差。同理于第二项,该项随着 k 增大而增加。
这套理论完整解释了维度对词嵌入的影响:当选取的维度过低时,词嵌入将有较大的偏差,因为模型丢失了较多信号。而维度过高时,词嵌入将有较大的方差,因为模型中夹杂了大量的噪音。
在这里插入图片描述
4. Negative Sampling
常用的词嵌入算法(例如 Word2Vec 和 GloVe)对过拟合具有鲁棒性。【‌鲁棒性(Robustness)是指系统或‌算法在面对不确定性、异常或危险情况下,仍能保持其预期功能或性能的能力】
维度选取过大时,由于过拟合的存在,它们在词义相似性任务上的表现有所下降;但是下降的幅度随维度的增加并不明显。
在这里插入图片描述

结果与讨论

  1. 定义了词嵌入的定义损失函数,建立起一套基于矩阵微扰理论的维度选择框架。
  2. Word2Vec 和 GloVe 对过拟合具有鲁棒性。
  3. 参考文章:https://zhuanlan.zhihu.com/p/53958685

个人思考与启发

  1. 一个词的意义通过其他词来定义,那么两个词的向量的相对位置是不变的。可以简化很多计算复杂度。
  2. 当解读公式的时候,可以类比一下其他类似的公式,会有不一样的发现。

重要图

文献中重要的图记录下来
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

  • 20
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值