使用输出解析器将LLM输出解析为结构化格式

本文链接：https://blog.csdn.net/eahba/article/details/145710165

在使用大型语言模型(LLM)时，通常会得到文本输出。然而，在某些情况下，我们希望将这些输出解析为结构化的信息。尽管某些模型提供者支持内置的方法来返回结构化输出，但并非所有模型都提供这种功能。为此，我们可以借助"输出解析器"类，来将语言模型的响应结构化。

技术背景介绍

输出解析器主要有两种方法需要实现：

Get format instructions：返回一个字符串，包含如何格式化语言模型输出的指令。
Parse：接受一个字符串（假设为语言模型的响应）并将其解析为某种结构化格式。

此外，还有一个可选方法：

Parse with prompt：接收一个字符串（假设为语言模型的响应）和提示信息，将其解析为结构化格式。此方法主要用于在需要重试或修复输出时，利用提示信息提供支持。

核心原理解析

输出解析器的核心思想是通过预定义的数据结构和格式化指令，将语言模型的文本输出转化为有定义的结构化数据。借助库如Pydantic和LangChain，我们可以轻松实现这一功能。

示例：PydanticOutputParser

以下代码展示了如何使用PydanticOutputParser解析语言模型的输出：

from langchain_core.output_parsers import PydanticOutputParser
from langchain_core.prompts import PromptTemplate
from langchain_core.pydantic_v1 import BaseModel, Field, validator
from langchain_openai import OpenAI

# 初始化OpenAI模型
model = OpenAI(
    base_url='https://yunwu.ai/v1',  # 国内稳定访问
    api_key='your-api-key',
    model_name="gpt-3.5-turbo-instruct",
    temperature=0.0
)

# 定义数据结构
class Joke(BaseModel):
    setup: str = Field(description="用以铺垫笑话的问题")
    punchline: str = Field(description="用以回答笑话的问题")

    # 加入自定义验证逻辑
    @validator("setup")
    def question_ends_with_question_mark(cls, field):
        if field[-1] != "?":
            raise ValueError("问题没有正确结束！")
        return field

# 设置解析器并注入格式化指令
parser = PydanticOutputParser(pydantic_object=Joke)

prompt = PromptTemplate(
    template="回答用户的查询。\n{format_instructions}\n{query}\n",
    input_variables=["query"],
    partial_variables={"format_instructions": parser.get_format_instructions()},
)

# 生成语言模型的响应并解析输出
prompt_and_model = prompt | model
output = prompt_and_model.invoke({"query": "Tell me a joke."})
parsed_output = parser.invoke(output)

print(parsed_output)  # 结果: Joke(setup='Why did the chicken cross the road?', punchline='To get to the other side!')

应用场景分析

这种方法特别适用于以下场景：

数据提取：从自然语言中提取特定字段数据。
API集成：将模型的文本输出直接集成到下游API中，需结构化数据。
复杂对话系统：需要从模型输出中提取特定信息，以响应用户的查询。

实践建议

选择合适的解析器: 根据输出需求选择合适的解析器，如PydanticOutputParser适合严格的结构化数据，而SimpleJsonOutputParser更灵活。
自定义验证: 利用Pydantic的验证功能，确保解析后的数据符合业务逻辑。
测试与优化: 在实际应用中测试解析器的性能，并根据具体需求进行优化。

如果遇到问题欢迎在评论区交流。

—END—