如何实现从大型语言模型流式获取响应

afTFODguAKBF

于 2024-10-10 02:04:19 发布

阅读量253

点赞数 1

文章标签：语言模型 microsoft 服务器 python

本文链接：https://blog.csdn.net/afTFODguAKBF/article/details/142800254

版权

如何实现从大型语言模型流式获取响应

在现代应用中，流式处理大型语言模型（LLM）的响应是提高用户体验和交互延迟的关键技术之一。本篇文章旨在指导开发者如何使用和示例化流式技术获取LLM响应。

主要内容

1. 同步流式处理

许多LLM实现了Runnable接口，该接口提供了一些标准可运行的方法，包括同步流式方法。默认的流式实现返回一个迭代器用于获取最终的模型输出。

示例

from langchain_openai import OpenAI

llm = OpenAI(model="gpt-3.5-turbo-instruct", temperature=0, max_tokens=512)
for chunk in llm.stream("Write me a 1 verse song about sparkling water."):
    print(chunk, end="|", flush=True)  # 使用`|`作为分隔符

输出例子可能是：

|Spark|ling| water|,| oh| so clear|
|Bubbles dancing|,| without| fear|
|Refreshing| taste|,| a| pure| delight|
|Spark|ling| water|,| my| thirst|'s| delight||

2. 异步流式处理

异步方法astream可以在非阻塞环境下实现流式处理。这样可以提高性能和响应速度。

示例

from langchain_openai import OpenAI

llm = OpenAI(model="gpt-3.5-turbo-instruct", temperature=0, max_tokens=512)
async for chunk in llm.astream("Write me a 1 verse song about sparkling water."):
    print(chunk, end="|", flush=True)

3. 异步事件流式处理

在更复杂的应用场景中，例如涉及多个步骤的应用，可以使用astream_events实现事件级别的流处理。

示例

from langchain_openai import OpenAI

llm = OpenAI(model="gpt-3.5-turbo-instruct", temperature=0, max_tokens=512)

idx = 0

async for event in llm.astream_events(
    "Write me a 1 verse song about goldfish on the moon", version="v1"
):
    idx += 1
    if idx >= 5:  # 限制输出内容
        print("...Truncated")
        break
    print(event)