【阅读笔记】On the Dimensionality of Word Embedding

Yin Z , Shen Y . On the Dimensionality of Word Embedding[J]. 2018.
https://github.com/ziyin-dl/word-embedding-dimensionality-selection

引入

本文是探讨 Word Embedding 维度的 bias-variance trade-off,提出了 Pairwise Inner Product (PIP) loss 来作为 Word Embedding 的指标,并且探讨一些 Word Embedding 方法的鲁棒性。
本文基于下面两个 preliminaries:

  • Word embeddings 是 unitary-invariant 的(体现了旋转特性不变,具体而言就是进行酉变换,就是词向量乘一个酉矩阵,不改变词向量特性。酉矩阵: U U T = U T U = I d UU^T=U^TU=Id UUT=UTU=Id
  • 大多数 Word Embedding 是共现矩阵显式或隐式的低秩近似
    • Latent Semantics Analysis (LSA) 是将共现矩阵 SVD 分解为 M = U D V T M=UDV^T M=UDVT,然后取 U 1 : k D 1 : k α U_{1:k}D_{1:k}^{\alpha} U1:kD1:kα作为 Embedding(显式)
    • Skip-gram 和 GloVe 都是对 Pointwise Mutual Information (PMI) matrix 用低纬的向量的乘积作为矩阵元素的近似(隐式)

PIP Loss: a Novel Unitary-invariant Loss Function for Embeddings

下面先给出两个定义:

  • 对于给定的 embedding matrix E E E,定义 Pairwise Inner Product (PIP) matrix 为 P I P ( E ) = E E T PIP(E)=EE^T PIP(E)=EET
  • 定义 PIP loss 为 ∣ ∣ P I P ( E ^ ) − P I P ( E ) ∣ ∣ ||PIP(\hat{E}) − PIP(E)|| PIP(E^)PIP(E)(元素之间的均方根, E ^ \hat{E} E^为用给定数据训练的词向量, E E E为理想下的词向量,两个 Word Embedding 越相似,PIP loss 越小)

How Does Dimensionality Affect the Quality of Embedding?

这一部分是理论推导,太数学了,我按我的理解翻译成比较通俗的话,理论推导暂时舍去,有啥理解不对的地方希望有缘人指正。
由于 Word embeddings 的本质是对共现矩阵 M M M的低阶近似,那么可以看作是 E = U 1 : d D 1 : d α E = U_{1:d}D_{1:d}^{\alpha} E=U1:dD1:dα α \alpha α是由词向量方法确定的,

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值