LightRNN 论文笔记：LightRNN: Memory and Computation-Efficient Recurrent Neural Networks

最新推荐文章于 2024-05-01 19:30:50 发布

原创

最新推荐文章于 2024-05-01 19:30:50 发布 · 1.9k 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#神经网络 #语言 #结构 #应用 #网络

LightRNN是一种针对大型词汇表的RNN模型，旨在解决模型大小和训练速度的问题。通过2-Component Shared Embedding，将词嵌入分解为行和列共享的向量，从而显著减少模型大小并提高训练效率。在实验中，LightRNN在不牺牲性能的前提下，实现了模型减小100倍和速度提升2倍。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Introduction

近年来RNN被广泛的应用于基于神经网络的NLP任务当中，比如说语言模型，QA等等，并且通常来说由RNN的相关结构能够在这些任务当中取得state of art的表现。

不过呢，虽然RNN相关的网络在NLP任务中表现十分优异，但是其也有一些非常显著的缺点，比如说当一个语料库所对应的词表数量非常大的情况下，整个模型的大小也会随之变大。比如，当我们使用RNN构建语言模型的时候，我们首先将词语从one-hot的向量，通过词嵌入的手段，转变为一个稠密的向量形式（如Word2Vec），并且所有词转变后构成一个embedding matrix，而当这个语料中的词语非常多的时候，将会导致这个matrix非常的大，大到我们使用GPU训练的时候，都没有办法将它放到GPU的显存里面。与此同时，除了模型会变的非常大以外，整个模型的训练开销也会随着词表的增大而急速增长。

在RNN LM或者相关的模型的计算中，最耗费时间的一个步骤在于计算预测词的概率，因为必须要通过softmax去计算概率值，而softmax需要计算一个规则项，该规则项需要遍历整个词表。
这里写图片描述
为了解决这个由于词表增大，而导致的模型大小和计算速度上的开销急剧增大的问题，这篇文章提出了一种新颖的做法，就是在做词嵌入的时候，将一个词对应的词嵌入拆成两部分，一部分可以理解为行嵌入部分，另一部分是列嵌入部分，并且这两部分都是共享的，只保证每个行和每个列的组合，只对应一个词。在传统的RNNLM做法中，一个词的词嵌入表示是一个独立的、唯一的表示，如果有V个词，那么就需要有V个向量来表示。而在这个RNNLM中，由于词嵌入的表示，由行向量和列向量组成，并且行列向量都是共享的，那么对于V个词的预料，那么其