使用Instructor项目实现结构化数据提取入门指南

田桥桑Industrious

于 2025-06-04 09:01:59 发布

阅读量402

点赞数 4

本文链接：https://blog.csdn.net/gitblog_00213/article/details/148415512

版权

使用Instructor项目实现结构化数据提取入门指南

instructor structured outputs for llms 项目地址: https://gitcode.com/gh_mirrors/in/instructor

引言

在现代自然语言处理应用中，从非结构化文本中提取结构化数据是一项常见且重要的任务。Instructor项目通过结合Pydantic模型和大语言模型(LLM)的能力，提供了一种优雅的解决方案。本文将带你了解如何使用Instructor进行基础的结构化数据提取。

核心概念

Instructor的核心思想是将Pydantic的数据模型定义与LLM的自然语言理解能力相结合。这种组合允许开发者：

定义期望的数据结构
让LLM理解并填充这个结构
获得类型安全的Python对象

环境准备

在开始之前，请确保已安装以下Python包：

instructor
openai
pydantic

基础示例：提取个人信息

让我们从一个简单的例子开始，从文本中提取人物的姓名和年龄。

步骤1：定义数据模型

from pydantic import BaseModel

class Person(BaseModel):
    name: str
    age: int

这里我们定义了一个Person类，包含两个字段：

name: 字符串类型，表示姓名
age: 整数类型，表示年龄

步骤2：配置Instructor客户端

import instructor
from openai import OpenAI

client = instructor.from_openai(OpenAI())

这行代码将标准的OpenAI客户端包装为具有结构化提取功能的Instructor客户端。

步骤3：执行数据提取

person = client.chat.completions.create(
    model="gpt-3.5-turbo",
    response_model=Person,
    messages=[
        {"role": "user", "content": "John Doe is 30 years old"}
    ]
)

关键参数说明：

model: 指定使用的LLM模型
response_model: 指定期望返回的数据结构
messages: 包含要处理的文本内容

步骤4：使用提取结果

print(f"姓名: {person.name}, 年龄: {person.age}")
# 输出: 姓名: John Doe, 年龄: 30

提取结果是一个标准的Pydantic模型实例，可以直接访问其属性。

进阶技巧

添加字段描述

为了提高提取准确性，可以为字段添加描述：

from pydantic import Field

class Person(BaseModel):
    name: str = Field(description="人物的全名")
    age: int = Field(description="人物的年龄，以岁为单位")

这些描述会帮助LLM更好地理解每个字段的含义。

处理可选字段

当某些信息可能不存在时，可以将字段设为可选：

from typing import Optional

class Person(BaseModel):
    name: str
    age: Optional[int] = Field(None, description="人物的年龄，如果未知则为空")

工作原理图解

┌─────────────┐    ┌──────────────┐    ┌─────────────┐
│ 定义数据    │ -> │ 指导LLM      │ -> │ 获取类型    │
│ 结构        │    │ 进行提取     │    │ 安全响应    │
└─────────────┘    └──────────────┘    └─────────────┘