论文:On the Dimensionality of Word Embedding

论文题目:On the Dimensionality of Word Embedding

论文发表:NeurIPS 2018
Github: https://github.com/ziyin-dl/word-embedding-dimensionality-selection

论文研究对象:

论文研究对象是自然语言处理中的词向量的维度问题。词向量(句向量)表示是神经网络解决nlp任务时的必经之路,无论是train from scratch,还是pretrainning,词向量维度的选择都是避免不了的。太大的词向量维度可能会造成过拟合和计算量太大的问题,词向量维度不够的话会使得无法捕捉到足够的词之间的关系。文章使用矩阵扰动理论,利用偏差-方差权衡进行词向量维度选择,找到训练集词向量的最优维度。提出了 Pairwise Inner Product (PIP) 损失,用于得到最优维度。

文章的框架基于两个前提:

1.词向量是酉不变的;

2.一般的词向量算法都是隐式或显示的词向量的低秩表示。

所以文章的理论、后面的推导都是基于这两个前提,实验部分的词向量方法用的是GloVe,skip-gram,LSA。

理论证明:

理论推导的过程解读当然是不存在的啦。放个PIP loss的定义意思一下:

其中E表示的是给定训练集的词向量,E hat 是目标词向量,PIP loss越小,词向量越相近。首先使用上面说的三种生成词向量的算法生成训练集的词向量E,这个词向量是通过词的共现矩阵(LSA)或者是Pointwise Mutual Information (PMI) matrix(GloVe、word2vec)得到的,同样使用在这个矩阵上加上扰动之后的矩阵生成E hat。最后的得到的loss受词向量的维度大小影响,可以求出最优的维度大小。

实验结果:

结论:

对于一般的词向量生成方法,通过文章的框架可以找到训练集词向量的最优维度。所以下次再生成词向量的时候可以先跑跑这个算法找最优的维度,前提是用GloVe、word2vec这种词向量生成方法,而且也是不同数据集的词向量维度也不同,该算法跑起来可能也需要一些时间和内存资源。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值