【阅读笔记】On the Dimensionality of Word Embedding

最新推荐文章于 2022-12-07 21:50:32 发布

SrdLaplaceGua

最新推荐文章于 2022-12-07 21:50:32 发布

阅读量1.2k

点赞数 1

分类专栏：机器学习实用技巧读书笔记文章标签： nlp word embedding 词向量优化选择

本文链接：https://blog.csdn.net/SrdLaplace/article/details/86073133

版权

本文深入研究Word Embedding的维度选择，提出Pairwise Inner Product (PIP)损失函数，讨论维度如何影响嵌入的质量。通过理论分析和实验，揭示了维度、偏差与方差之间的平衡，为优化词向量模型提供了新的视角。

摘要由CSDN通过智能技术生成

Yin Z , Shen Y . On the Dimensionality of Word Embedding[J]. 2018.
https://github.com/ziyin-dl/word-embedding-dimensionality-selection

引入

本文是探讨 Word Embedding 维度的 bias-variance trade-off，提出了 Pairwise Inner Product (PIP) loss 来作为 Word Embedding 的指标，并且探讨一些 Word Embedding 方法的鲁棒性。
本文基于下面两个 preliminaries：

Word embeddings 是 unitary-invariant 的（体现了旋转特性不变，具体而言就是进行酉变换，就是词向量乘一个酉矩阵，不改变词向量特性。酉矩阵： $UU^T=U^TU=Id$ ）
大多数 Word Embedding 是共现矩阵显式或隐式的低秩近似
- Latent Semantics Analysis (LSA) 是将共现矩阵 SVD 分解为 $M=UDV^T$ ，然后取 $U_{1:k}D_{1:k}^{\alpha}$ 作为 Embedding（显式）
- Skip-gram 和 GloVe 都是对 Pointwise Mutual Information (PMI) matrix 用低纬的向量的乘积作为矩阵元素的近似（隐式）

PIP Loss: a Novel Unitary-invariant Loss Function for Embeddings

下面先给出两个定义：

对于给定的 embedding matrix $E$ ，定义 Pairwise Inner Product (PIP) matrix 为 $PIP(E)=EE^T$
定义 PIP loss 为 $||PIP(\hat{E}) − PIP(E)||$ （元素之间的均方根， $\hat{E}$ 为用给定数据训练的词向量， $E$ 为理想下的词向量，两个 Word Embedding 越相似，PIP loss 越小）

How Does Dimensionality Affect the Quality of Embedding?

这一部分是理论推导，太数学了，我按我的理解翻译成比较通俗的话，理论推导暂时舍去，有啥理解不对的地方希望有缘人指正。
由于 Word embeddings 的本质是对共现矩阵 $M$ 的低阶近似，那么可以看作是 $U_{1:d}D_{1:d}^{\alpha}$ ， $\alpha$

最低0.47元/天解锁文章

SrdLaplaceGua

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
1
评论
【阅读笔记】On the Dimensionality of Word Embedding

Yin Z , Shen Y . On the Dimensionality of Word Embedding[J]. 2018.https://github.com/ziyin-dl/word-embedding-dimensionality-selection引入本文是探讨 Word Embedding 维度的 bias-variance trade-off，提出了 Pairwise ...
复制链接

扫一扫

专栏目录