使用LLMLingua进行高效文档压缩：提高LLM推理效率

最新推荐文章于 2024-10-08 03:03:21 发布

sjufgwgfhoia

最新推荐文章于 2024-10-08 03:03:21 发布

阅读量181

点赞数 3

文章标签：人工智能 python

本文链接：https://blog.csdn.net/sjufgwgfhoia/article/details/142417499

版权

# 引言

在大规模语言模型（LLM）推理中，数据量常常是一个挑战。LLMLingua通过识别并移除提示中的非必要词元，实现高达20倍的压缩，同时保持性能损失最小。这篇文章将介绍如何使用LLMLingua进行文档压缩，提高推理效率。

# 主要内容

## LLMLingua的工作原理

LLMLingua采用紧凑、训练良好的语言模型（如GPT2-small），识别和移除非必要词元。通过这种方式，我们可以在输入数据大幅减少的情况下，保持模型的推理性能。

## 设置向量存储检索器

首先初始化一个简单的向量存储检索器，并以块的形式存储2023年的国情咨文。我们使用FAISS进行检索，配置一次检索20份文档。

```python
from langchain_community.document_loaders import TextLoader
from langchain_community.vectorstores import FAISS
from langchain_openai import OpenAIEmbeddings
from langchain_text_splitters import RecursiveCharacterTextSplitter

documents = TextLoader(
    "state_of_the_union.txt",
).load()

text_splitter = RecursiveCharacterTextSplitter(chunk_size=500, chunk_overlap=100)
texts = text_splitter.split_documents(documents)

embedding = OpenAIEmbeddings(model="text-embedding-ada-002")
retriever = FAISS.from_documents(texts, embedding).as_retriever(search_kwargs={"k": 20})

代码示例

使用LLMLingua进行文档压缩

使用ContextualCompressionRetriever和LLMLinguaCompressor进行文档压缩。

from langchain.retrievers import ContextualCompressionRetriever
from langchain_community.document_compressors import LLMLinguaCompressor
from langchain_openai import ChatOpenAI

llm = ChatOpenAI(temperature=0)

compressor = LLMLinguaCompressor(model_name="openai-community/gpt2", device_map="cpu")
compression_retriever = ContextualCompressionRetriever(
    base_compressor=compressor, base_retriever=retriever
)

compressed_docs = compression_retriever.invoke(
    "What did the president say about Ketanji Jackson Brown"
)

问答生成

使用RetrievalQA进行问答生成。

from langchain.chains import RetrievalQA

chain = RetrievalQA.from_chain_type(llm=llm, retriever=compression_retriever)

result = chain.invoke({"query": "What did the president say about Ketanji Brown Jackson"})
print(result['result'])  # 输出问答结果