本文是LLM系列文章,针对《RecurrentGemma: Moving Past Transformers for Efficient Open Language Models》的翻译。
摘要
我们介绍RecurrenceGemma,这是一个使用谷歌新颖的Griffin架构的开放语言模型。Griffin将线性递归与局部注意力相结合,在语言方面取得了出色的表现。它具有固定大小的状态,这减少了内存使用,并能够对长序列进行高效推理。我们提供了一个具有2B个非嵌入参数的预训练模型和一个指令调优变体。尽管在较少的token上进行了训练,但这两种模型都实现了与Gemma-2B相当的性能。
1 引言
2 训练细节
3 评估
4 结论
RecurrenceGemma-2B提供了Gemma的性能,同时在推理过程中实现了更高的吞吐量,特别是在长序列上。我们希望RecurrenceGemma能够在资源受限的环境中解锁高性能小型语言模型的新应用。