本文是LLM系列文章,针对《500xCompressor: Generalized Prompt Compression for Large Language Models》的翻译。
摘要
提示压缩对于提高推理速度、降低成本和改善用户体验至关重要。然而,目前的方法面临着压缩比低和评估过程中可能的数据泄漏等挑战。为了解决这些问题,我们提出了 500xCompressor,这是一种将广泛的自然语言上下文压缩为至少一个特殊token的方法。500xCompressor 引入了大约 0.25% 的附加参数,并实现了 6 倍到 480 倍的压缩比。它旨在压缩任何文本,回答各种类型的问题,并且可以被原始的大型语言模型 (LLM) 使用,而无需微调。最初,500xCompressor 在 Arxiv 语料库上进行预训练,然后在 ArxivQA 数据集上进行微调,随后在严格看不见的经典问答 (QA) 数据集上进行评估。结果表明,与使用非压缩提示相比,LLM 保留了 62.26-72.89% 的功能。这项研究还表明,并非所有压缩的token都得到同等利用,并且 K V 值在以高压缩率保留信息方面比嵌入具有显着优势。自然语言提示的高度压缩性,即使对于细粒度的复杂信息也是如此,这表明未来应用和进一步研究开发新的 LLM 语言的潜力很大。