文献:L Wang,C Dyer, AW Black, I Trancoso. Two/Too Simple Adaptations of Word2Vec for Syntax Problems[C]. ACL 2015: 1299–1304.
https://github.com/wlin12/wang2vec
问题分析
CBOW与skip-gram在利用目标词的上下文进行其语义嵌入表示时,没有考虑上下文内的词序信息,从而使得该二者无法有效解决语法分析相关问题,这是由于 syntax关心的是“what words go where?”而语义关心的是“what words go together”。
Structured Word2Vec
Structured Skip-Ngram
skip-gram模型在利用中心词 wo 预测其语境词 w−c,⋯,w−1,w1,⋯,wc 时只运用一个输出矩阵 O∈R|V|×d . 而在Structured Skip-Ngram中,对每个场景词 wi 分别定义一个 Oi∈R|V|×d 。则待优化的概率转变为: p(wp=j|w=i)=exp(Cpj⋅E⋅wi) , w=i 表示当前窗口中心词是vocabulary中的第 i 个词,wp=j 表示当前窗口中心词的语境词 wp 是vocabulary中的第 j 个词.E 为嵌入矩阵, E⋅wi 表示提取 wi 的嵌入表示, Cpj 就是第 j 个单词的输出矩阵。CWINDOW
CBOW模型是通过对上下文窗口内的各单词向量进行求和来实现中心词向量的修正,从而导致单词顺序信息丢失。而在CWINDOW中,不是以求和方式构造输出矩阵O 而是以连接方式产生 O=[e(w−c),⋯,e(w−1),e(w1),⋯,e(wc)] ,这样可以保存顺序信息。