pair2vec: Compositional Word-Pair Embeddings for Cross-Sentence Inference
origin
2019 naacl
Mandar Joshiy Eunsol Choiy Omer Levyz Daniel S. Weldy Luke Zettlemoyeryz
y Paul G. Allen School of Computer Science & Engineering,
University of Washington, Seattle, WA
Facebook AI Research, Seattle
motivation
在之前关于跨句推断问题(例如问答、自然语言推断)研究中,都只单纯的使用单个词的embedding, 本文在跨句推断模型中显示加入词对信息,词对信息在跨句推断中十分重要,一定程度上可以包含一些背景知识。例如golf is prohibitively expensive 与 “golf is a cheap pastime” 是矛盾的,因为expensive 和 cheap 是反义词。
model
上面的模型结构图是整个跨句推断模型以及如何将词对信息加入到模型中。词对信息通常与跨句推断模型的最后一层表示进行拼接,而没有作为词嵌入信息加入到跨句推断模型的encoder中,为了使得词嵌入信息作为背景知识辅助跨句推断。接下来考虑如何编码词对信息。
编码词对信息我们借鉴类似word2vec的思想,相似的词对往往出现在相似的上下文环境中,如果有这样的数据集:词对以及上下文 我们就可以借鉴word2vec的思想训练词对信息 接下来我们考虑如何对词对信息以及上下文进行编码:
词对编码:
使用一个4层的感知机编码词对信息, R ( x , y ) R(x,y) R(x,y)是一个组成函数,单独处理x和y,解决词对 ( x , y ) (x,y) (x,y)的稀疏问题
上下文编码:
使用Bi-LSTM模型编码上下文序列
目标函数:
我们期望 R ( x , y ) R(x,y) R(x,y)和 C ( c ) C(c) C(c)相似(有较大的内积)对于 ( x , y , c ) (x,y,c) (x,y,c)出现在数据集中,同时期望 R ( x , y ) R(x,y) R(x,y)和随机的上下文 C ( c ) C(c) C(c)相似性较低,通过负采样构造负例。本文里提供了两种构造负例的方式。
k ∗ k_* k∗表示采样的个数 c i N c_i^{N} ciN 表示上下文负例,类似的 x i N x_i^{N} xiN、 y i N y_i^{N} yiN分别表示对 x x x和 y y y的负采样
对于Bivariate目标函数:
对于Multivariate目标函数:
Typed sample: 通过计算词向量之间的余弦距离相似度,选择相近的100个作为替换,目的是为了学习更具体的关系。
将pair2vec加入到推理模型中:
a 1 , a 2 , . . . . . . a n a_1,a_2,......a_n a1,a2,......an和 b 1 , b 2 , b 3 , . . . . , b m b_1,b_2,b_3,....,b_m b1,b2