如何缓存聊天模型响应以提升性能和节约成本-CSDN博客

本文链接：https://blog.csdn.net/bhawfgrcbtwny/article/details/142908704

引言

在现代应用中，与大型语言模型（LLM）进行频繁的API交互可能会带来高昂的成本和较长的响应时间。通过缓存这些响应，我们可以减少API调用次数，从而节约成本并提高应用速度。本文将详细介绍如何在应用中启用缓存功能，并提供相关代码示例。

主要内容

为什么需要缓存？

节省成本：通过缓存相同的LLM响应，减少不必要的API调用次数，从而降低费用。
提高速度：减少与LLM进行实时交互的次数，提升应用程序的响应速度。

支持的模型和提供者

LangChain支持各种LLM提供者，包括但不限于：

OpenAI
Anthropic
Azure
Google
NVIDIA
更多…

LangChain缓存类型

LangChain提供了两种主要的缓存类型：

内存缓存（In-Memory Cache）

一个临时缓存，存储在内存中。环境重启时会被清除，不适合跨进程共享数据。

SQLite缓存

使用SQLite数据库存储响应，重启后依然存在，适合长期存储。

代码示例

以下是如何在应用中实现内存缓存和SQLite缓存的代码示例：

from langchain import set_llm_cache
from langchain.cache import InMemoryCache
from langchain_community.cache import SQLiteCache
import os

# 使用内存缓存
set_llm_cache(InMemoryCache())

# 首次调用时不在缓存中
response = llm.invoke("Tell me a joke")
print(response)

# 第二次调用从缓存获取，速度更快
response = llm.invoke("Tell me a joke")
print(response)

# 使用SQLite缓存
set_llm_cache(SQLiteCache(database_path=".langchain.db"))

# 首次调用时不在缓存中
response = llm.invoke("Tell me a joke")
print(response)

# 第二次调用从缓存获取，速度更快
response = llm.invoke("Tell me a joke")
print(response)