Title: LLMLingua: Compressing Prompts for Accelerated Inference of Large Language Models

LLMLingua是一种粗到细的提示压缩方法,能在保持语义完整性的前提下,将提示压缩20倍,几乎不损失性能。通过预算控制器、迭代令牌级提示压缩和指令调整,有效地压缩大型语言模型的输入,降低推理成本。在数学推理、对话和摘要数据集上表现出色。
摘要由CSDN通过智能技术生成

今天分享微软公司的一篇文章,Title: LLMLingua: Compressing Prompts for Accelerated Inference of Large Language Models。这篇文章介绍了一种名为LLMLingua的粗到细的提示压缩方法,能够在保持语义完整性的同时,将提示prompt压缩20倍,并且基本不损失性能。

主要分为三个步骤来完成prompt的有效压缩,同时确保基本不损失性能。

*预算控制(budget controller): 为各种组件(instructions, demonstrations, and questions)分配不同的压缩比,通过预算控制器在高压缩比率下维护整体语义完整性。

*迭代压缩算法(token-level iterative compression algorithm): 使用基于token的迭代算法,准确捕捉压缩内容之间的关联性,从而更有效地压缩prompt并保留知识。

*指令调整(instruction tuning): 通过指令调整实现语言模型间的分布对齐,解决小模型和黑盒大模型之间的分布差异。

一、概述

Title: LLMLingua: Compressing Prompts for Accelerated Inference of Large Language Models

URL: https://arxiv.org/abs/2310.05736

CODE: GitHub - microsoft/LLMLingua: To speed up LLMs' inference and enhance LLM's perceive of key information, compress the prompt and KV-Cache, which achieves up to 20x compression with minimal performance loss.

Authors: Huiqiang Jiang, Qianhui Wu, Chin-Yew Lin, Yuqing Yang, Lili Qiu

1 Motivation
  • 随着COT[1]方法、RAG检索方法技术的出现,prompt越来越长,导致比较费API cost,时间成本、金额成本都比较高。

  • Natrual Language本身是冗余的,尤其是口语下,另外ChatGPT实际上能很好的理解某种被压缩的文字[2]。

  • LLM本身已经学会了非常多知识,即prompt中更高置信的部分token完全不需要交给LLMs,他也能从上下文中猜测出来。

prompt压缩的一些关键问题:

1.压缩和性能平衡: 我们应该如何去设计一个prompt 压缩算法,从而能够最大化的压缩prompt,同时又不影响LLMs的性能。

2.能否即插即用: 这种被压缩的prompt能直接用在下游任务中吗?

3.泛化性: 它的泛化性怎么样?

4.为什么压缩prompt对LLM有效,如何证明? 有什么证据能证明Black-box LLMs能理解这种被压缩的prompt?

5.上界在哪: 这种压缩方法的有上界吗?

6.为什么不用GPT-X: 为什么不用GPT-X来做这件事?

2 Methods

2.1 Budget controller

预算控制器(Budget Controller)是LLMLingua方法中的一个重要组件,用于在压缩提示(prompt)时动态分配不同的压缩比率给原始提示中的不同部分。

背景: Prompt中不同成分对于压缩的敏感程度是不同的,例如System prompt,question prompt的敏感度更高,而demonstrations(示例)敏感度低,可以分配更高 的压缩比。

目标: 给Instructions(指令)以及question(用户问题)分配较小的压缩比,保留更重要的指令信息。对于demonstrations(示例)可以分配更高的压缩比,去除其冗余信息。

方法:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值