论文名:Using the Output Embedding to Improve Language Models
论文作者:Ofir Press and Lior Wolf
期刊/会议名:EACL 2017
本文作者:XMU_MIAO
1)摘要
我们研究了神经网络语言模型(NNLM)中顶层权重矩阵(输入嵌入矩阵和输出嵌入矩阵[pre-softmax映射矩阵]),我们证明了这个矩阵构成了有效的词嵌入。在训练语言模型时,我们建议绑定输入嵌入和输出嵌入(共享嵌入矩阵, weight tying \textbf{weight\,\,tying} weighttying)。
我们分析了生成的更新规则,并标明绑定后的嵌入矩阵更类似于输出嵌入矩阵的效果,而不是输入嵌入矩阵的效果。
另外还提出了一种新的针对输出嵌入矩阵的正则化方法。在各种各样的神经语言模型上,我们的方法能够减少了 ppl(perplexity) \textbf{ppl(perplexity)} ppl(perplexity)。
最后,我们证明了 w e i g h t t y i n g weight\,tying weightt