高效缓存聊天模型响应的实用指南-CSDN博客

本文链接：https://blog.csdn.net/akhfuiigabv/article/details/142793476

引言

随着AI技术的不断发展，聊天模型（Chat Models）和大型语言模型（LLMs）的使用越来越广泛。然而，频繁调用这些模型的API不仅可能增加成本，还会影响应用程序的响应速度。在这篇文章中，我们将探讨如何通过LangChain库为聊天模型启用缓存，从而节省开支并提高效率。

主要内容

为什么启用缓存？

降低成本：通过缓存重复的API请求，可以减少调用次数，从而降低费用。
提高速度：减少API调用次数可以显著提高应用程序的响应速度。

各大平台的使用示例

我们将讨论OpenAI、Anthropic、Azure、Google等多种平台的缓存设置。首先，确保你已安装必要的LangChain库：

pip install -qU langchain-openai

接下来，配置API密钥：

import getpass
import os

os.environ["OPENAI_API_KEY"] = getpass.getpass()

from langchain_openai import ChatOpenAI

llm = ChatOpenAI(model="gpt-4o-mini")

启用In Memory Cache

这个暂存缓存会在内存中存储模型调用，适用于开发过程中需要快速测试的情况：

from langchain.cache import InMemoryCache
from langchain.globals import set_llm_cache

set_llm_cache(InMemoryCache())

response = llm.invoke("Tell me a joke")
print(response)

启用SQLite Cache

SQLite缓存可以跨进程重启保存缓存，是更持久的解决方案：

!rm .langchain.db

from langchain_community.cache import SQLiteCache

set_llm_cache(SQLiteCache(database_path=".langchain.db"))

response = llm.invoke("Tell me a joke")
print(response)

代码示例

以下代码展示了如何设置缓存并调用语言模型：

# 使用API代理服务提高访问稳定性
from langchain.cache import InMemoryCache
from langchain.globals import set_llm_cache
from langchain_openai import ChatOpenAI
import os

os.environ["OPENAI_API_KEY"] = "your_secret_key"

set_llm_cache(InMemoryCache())

llm = ChatOpenAI(model="gpt-4o-mini")

response = llm.invoke("What is AI?")
print(response)