设Word2Vec等词向量训练模型的输入词向量为U,输出词向量为V,通常模型训练完成后,只是用U作为预训练词向量给其他上游模型使用,V通常忽略,本文探讨了U和V使用的效果,已经联合使用U和V的想过,得出以下结论:
1、在Word2Vec Skipgram模型中,输出词向量与输入词向量的效果相比稍差。
2、在基于RNN的语言模型中,输入词向量比输入词向量想过更好。
3、通过将这两种嵌入结合在一起,即强制U = V,联合嵌入的效果更类似于输出嵌入,而不是未绑定模型的输入嵌入。
4、将输入和输出嵌入绑在一起,可以改进各种语言模型的困惑度。
5、当不使用dropout时,建议在V之前添加一个额外的投影P,并对P应用正则化。
6、神经翻译模型中的权值绑定可以在不影响性能的前提下将它们的大小(参数数量)减少到原来大小的一半以下。