缓存聊天模型响应的实用指南

nseejrukjhad

于 2024-10-03 20:40:12 发布

阅读量81

点赞数 2

文章标签：缓存 python

本文链接：https://blog.csdn.net/nseejrukjhad/article/details/142695905

版权

引言

在调用大型语言模型（LLM）时，频繁的API请求可能会导致成本增加和响应时间的延长。LangChain 提供了一种缓存层，可以有效地减少对LLM提供商的API调用次数，从而节省费用和加速应用程序的性能。本指南将介绍如何在应用中启用这种缓存机制。

主要内容

1. 缓存的优势

节省成本：减少重复请求次数。
提高速度：减少网络延迟，提高响应速度。

2. 支持的模型提供商

LangChain 支持多个模型提供商的缓存，包括但不限于：

OpenAI
Anthropic
Azure
Google
Cohere
NVIDIA

3. 环境准备

在继续之前，请确保您已安装相关的LangChain库，例如：

pip install -qU langchain-openai

并设置所使用的API密钥：

import getpass
import os

os.environ["OPENAI_API_KEY"] = getpass.getpass()

4. 启用缓存

LangChain 提供了两种主要的缓存类型：内存缓存和SQLite缓存。

内存缓存

内存缓存是暂时性的，存储在内存中，环境重启后将被清除。

from langchain.cache import InMemoryCache
from langchain.globals import set_llm_cache

set_llm_cache(InMemoryCache())

SQLite缓存

SQLite缓存持久化存储在数据库中，适合需要跨进程持久化的场景。

from langchain_community.cache import SQLiteCache

set_llm_cache(SQLiteCache(database_path=".langchain.db"))

代码示例

以下代码展示了如何使用内存缓存来缓存聊天模型的响应：

from langchain_openai import ChatOpenAI

llm = ChatOpenAI(model="gpt-4o-mini")
from langchain.cache import InMemoryCache
from langchain.globals import set_llm_cache

set_llm_cache(InMemoryCache())

# 第一次调用，未命中缓存
response = llm.invoke("Tell me a joke")
print(response.content)

# 第二次调用，命中缓存
response_cached = llm.invoke("Tell me a joke")
print(response_cached.content)