Yin Z , Shen Y . On the Dimensionality of Word Embedding[J]. 2018.
https://github.com/ziyin-dl/word-embedding-dimensionality-selection
引入
本文是探讨 Word Embedding 维度的 bias-variance trade-off,提出了 Pairwise Inner Product (PIP) loss 来作为 Word Embedding 的指标,并且探讨一些 Word Embedding 方法的鲁棒性。
本文基于下面两个 preliminaries:
- Word embeddings 是 unitary-invariant 的(体现了旋转特性不变,具体而言就是进行酉变换,就是词向量乘一个酉矩阵,不改变词向量特性。酉矩阵: U U T = U T U = I d UU^T=U^TU=Id UUT=UTU=Id)
- 大多数 Word Embedding 是共现矩阵显式或隐式的低秩近似
- Latent Semantics Analysis (LSA) 是将共现矩阵 SVD 分解为 M = U D V T M=UDV^T M=UDVT,然后取 U 1 : k D 1 : k α U_{1:k}D_{1:k}^{\alpha} U1:kD1:kα作为 Embedding(显式)
- Skip-gram 和 GloVe 都是对 Pointwise Mutual Information (PMI) matrix 用低纬的向量的乘积作为矩阵元素的近似(隐式)
PIP Loss: a Novel Unitary-invariant Loss Function for Embeddings
下面先给出两个定义:
- 对于给定的 embedding matrix E E E,定义 Pairwise Inner Product (PIP) matrix 为 P I P ( E ) = E E T PIP(E)=EE^T PIP(E)=EET
- 定义 PIP loss 为 ∣ ∣ P I P ( E ^ ) − P I P ( E ) ∣ ∣ ||PIP(\hat{E}) − PIP(E)|| ∣∣PIP(E^)−PIP(E)∣∣(元素之间的均方根, E ^ \hat{E} E^为用给定数据训练的词向量, E E E为理想下的词向量,两个 Word Embedding 越相似,PIP loss 越小)
How Does Dimensionality Affect the Quality of Embedding?
这一部分是理论推导,太数学了,我按我的理解翻译成比较通俗的话,理论推导暂时舍去,有啥理解不对的地方希望有缘人指正。
由于 Word embeddings 的本质是对共现矩阵 M M M的低阶近似,那么可以看作是 E = U 1 : d D 1 : d α E = U_{1:d}D_{1:d}^{\alpha} E=U1:dD1:dα, α \alpha α是由词向量方法确定的,