使用 Label Studio 和 LangChain 构建灵活的LLM数据标注与评估平台

最新推荐文章于 2025-05-23 09:16:47 发布

eahba

最新推荐文章于 2025-05-23 09:16:47 发布

阅读量597

点赞数 15

文章标签： langchain python

本文链接：https://blog.csdn.net/eahba/article/details/146220122

版权

技术背景介绍

随着大语言模型（LLM）的普及，数据标注的重要性愈发凸显。Label Studio 是一个开源数据标注平台，它与 LangChain 集成后，可以方便地获取、标注和管理用于微调LLM的数据集。这一整合允许开发者通过人类反馈来优化LLM的反应，提高其性能。

核心原理解析

通过将 Label Studio 与 LangChain 的管道连接，我们可以：

聚合数据：将所有输入提示、对话和响应集中在一个 Label Studio 项目中，便于标注和分析。
数据集构建：优化提示和响应，构建用于监督微调（SFT）和人类反馈强化学习（RLHF）的数据集。
反应评估：通过界面评审和批注LLM的反应，进行迭代优化。

代码实现演示

安装和设置

首先，安装最新版本的 Label Studio 及其 API 客户端：

%pip install --upgrade --quiet langchain label-studio label-studio-sdk langchain-openai langchain-community

启动本地 Label Studio 实例：

label-studio

在浏览器中打开 http://localhost:8080 并生成 API 调用所需的令牌。配置环境变量：

import os

os.environ["LABEL_STUDIO_URL"] = "http://localhost:8080"  # 您的LabelStudio URL
os.environ["LABEL_STUDIO_API_KEY"] = "your-label-studio-api-key"
os.environ["OPENAI_API_KEY"] = "your-openai-api-key"

LLM提示和响应收集

在 Label Studio 创建一个项目，使用如下XML配置：

<View>
<Style>
    .prompt-box {
        background-color: white;
        border-radius: 10px;
        box-shadow: 0px 4px 6px rgba(0, 0, 0, 0.1);
        padding: 20px;
    }
</Style>
<View className="root">
    <View className="prompt-box">
        <Text name="prompt" value="$prompt"/>
    </View>
    <TextArea name="response" toName="prompt"
              maxSubmissions="1" editable="true"
              required="true"/>
</View>
<Header value="Rate the response:"/>
<Rating name="rating" toName="prompt"/>
</View>

连接到 LangChain：

from langchain_community.callbacks.labelstudio_callback import LabelStudioCallbackHandler
from langchain_openai import OpenAI

llm = OpenAI(
    temperature=0,
    callbacks=[LabelStudioCallbackHandler(project_name="My Project")]
)
print(llm.invoke("Tell me a joke"))

收集聊天模型对话

配置项目以追踪聊天对话：

<View>
<View className="root">
     <Paragraphs name="dialogue"
               value="$prompt"
               layout="dialogue"
               textKey="content"
               nameKey="role"
               granularity="sentence"/>
  <Header value="Final response:"/>
    <TextArea name="response" toName="dialogue"
              maxSubmissions="1" editable="true"
              required="true"/>
</View>
<Header value="Rate the response:"/>
<Rating name="rating" toName="dialogue"/>
</View>

在 LangChain 中调用：

from langchain_core.messages import HumanMessage, SystemMessage
from langchain_openai import ChatOpenAI

chat_llm = ChatOpenAI(
    callbacks=[LabelStudioCallbackHandler(mode="chat", project_name="New Project with Chat")]
)
llm_results = chat_llm.invoke(
    [
        SystemMessage(content="Always use a lot of emojis"),
        HumanMessage(content="Tell me a joke"),
    ]
)