本文是LLM系列文章,针对《Attention Is All You Need But You Don’t Need All Of It For Inference of Large Language Models》的翻译。
摘要
近几个月来,对 LLM 的推理需求猛增,由于注意力层的二次输入长度复杂性,为低延迟的模型提供服务仍然具有挑战性。在这项工作中,我们研究了在推理时丢弃 MLP 和注意力层对 Llama-v2 模型性能的影响。我们发现,丢弃 dreeper attention 层只会略微降低性能,但在丢弃整个层的同时可以带来最佳的加速。例如,在 13B Llama2 模型中删除 33% 的注意力层会导致平均性能比 OpenLLM 基准测试下降 1.8%。我们还观察到,跳过除后一层之外的层会降低跳过更多层的性能,但跳过注意力层除外。
1 引言
2 方法
3 结果
4 相关工作
5 结论
我们研究了从 7B 和 13B Llama2 模型中删除最后一层的影响。我们观察到,无论是否包含最后一层,丢弃注意力子层都比丢弃 MLP 子层导致性能下降低得多,同时还会导致更好的推理速度。例如,删除