[论文阅读]Using the Output Embedding to Improve Language Models

最新推荐文章于 2025-02-27 19:29:53 发布

XMU_MIAO

最新推荐文章于 2025-02-27 19:29:53 发布

阅读量1.3k

点赞数

分类专栏：论文阅读文章标签：自然语言处理深度学习 pytorch 神经网络机器学习

本文链接：https://blog.csdn.net/ZY_miao/article/details/109388858

版权

该论文探讨了神经网络语言模型中输入和输出嵌入矩阵的共享，即weight tying，以此提高语言模型的性能。实验表明，这种方法能降低困惑度（ppl），并在不牺牲性能的情况下减小神经转换模型的参数量。此外，提出了一种新的输出嵌入正则化方法，通过投影矩阵正则化提升模型效果。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

论文总结（Transformer中Embedding部分提到的权重共享）

1)摘要
2)文章贡献
3)实验设计
3)实验结果

论文名：Using the Output Embedding to Improve Language Models
论文作者：Ofir Press and Lior Wolf
期刊/会议名：EACL 2017
本文作者：XMU_MIAO

1)摘要

我们研究了神经网络语言模型（NNLM）中顶层权重矩阵（输入嵌入矩阵和输出嵌入矩阵[pre-softmax映射矩阵]），我们证明了这个矩阵构成了有效的词嵌入。在训练语言模型时，我们建议绑定输入嵌入和输出嵌入(共享嵌入矩阵, $\textbf{weight\,\,tying}$ )。
我们分析了生成的更新规则，并标明绑定后的嵌入矩阵更类似于输出嵌入矩阵的效果，而不是输入嵌入矩阵的效果。
另外还提出了一种新的针对输出嵌入矩阵的正则化方法。在各种各样的神经语言模型上，我们的方法能够减少了 $\textbf{ppl(perplexity)}$ 。
最后，我们证明了 $weight\,tying$