论文：On the Dimensionality of Word Embedding

最新推荐文章于 2020-11-14 15:55:05 发布

choose_c

最新推荐文章于 2020-11-14 15:55:05 发布

阅读量560

点赞数

本文链接：https://blog.csdn.net/choose_c/article/details/88366344

版权

论文题目：On the Dimensionality of Word Embedding

论文发表：NeurIPS 2018
Github： https://github.com/ziyin-dl/word-embedding-dimensionality-selection

论文研究对象：

论文研究对象是自然语言处理中的词向量的维度问题。词向量（句向量）表示是神经网络解决nlp任务时的必经之路，无论是train from scratch，还是pretrainning，词向量维度的选择都是避免不了的。太大的词向量维度可能会造成过拟合和计算量太大的问题，词向量维度不够的话会使得无法捕捉到足够的词之间的关系。文章使用矩阵扰动理论，利用偏差-方差权衡进行词向量维度选择，找到训练集词向量的最优维度。提出了 Pairwise Inner Product (PIP) 损失，用于得到最优维度。

文章的框架基于两个前提：

1.词向量是酉不变的；

2.一般的词向量算法都是隐式或显示的词向量的低秩表示。

所以文章的理论、后面的推导都是基于这两个前提，实验部分的词向量方法用的是GloVe，skip-gram，LSA。

理论证明：

理论推导的过程解读当然是不存在的啦。放个PIP loss的定义意思一下：

其中E表示的是给定训练集的词向量，E hat 是目标词向量，PIP loss越小，词向量越相近。首先使用上面说的三种生成词向量的算法生成训练集的词向量E，这个词向量是通过词的共现矩阵（LSA）或者是Pointwise Mutual Information (PMI) matrix（GloVe、word2vec）得到的，同样使用在这个矩阵上加上扰动之后的矩阵生成E hat。最后的得到的loss受词向量的维度大小影响，可以求出最优的维度大小。

实验结果：

略

结论：

对于一般的词向量生成方法，通过文章的框架可以找到训练集词向量的最优维度。所以下次再生成词向量的时候可以先跑跑这个算法找最优的维度，前提是用GloVe、word2vec这种词向量生成方法，而且也是不同数据集的词向量维度也不同，该算法跑起来可能也需要一些时间和内存资源。

choose_c

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
论文：On the Dimensionality of Word Embedding

论文题目：On the Dimensionality of Word Embedding论文发表：NeurIPS 2018Github：https://github.com/ziyin-dl/word-embedding-dimensionality-selection论文研究对象：论文研究对象是自然语言处理中的词向量的维度问题。词向量（句向量）表示是神经网络解决nlp任务时的必经...
复制链接

扫一扫