手把手实战：快速搭建Agent，让大模型自动生成微调语料

最新推荐文章于 2025-05-01 18:51:40 发布

大模型部署

最新推荐文章于 2025-05-01 18:51:40 发布

阅读量638

点赞数 26

文章标签：大数据人工智能 LLM 机器学习产品经理 langchain

本文链接：https://blog.csdn.net/huang9604/article/details/147215407

版权

在人工智能应用落地过程中，Fine-tuning（微调） 是提升模型性能、使其更契合特定业务场景的重要手段。然而，在微调之前，语料数据的准备 是至关重要的，因为数据质量直接决定了模型的最终表现。

目前我们在准备语料数据的痛点有哪些？

人工依赖重，效率低
构建训练数据（语料）通常依赖人工收集、筛选、清洗和标注，周期长，质量参差不齐。
需求变化快，语料滞后严重
业务场景快速演进，传统静态语料更新不及时，难以满足新模型或新场景的训练需求。
语料覆盖窄，泛化能力差
实际业务中存在大量长尾问题，靠人工设计难以覆盖全部问法、对话路径和场景变体。
标注成本高，难以扩展规模
特别是在涉及多轮对话、分类任务、问答系统等场景，标注粒度高、成本高、扩展慢。

接下来我们看看用 Dify +大模型如何解决上面的痛点。

1）自动生成多轮、高质量语料，替代人工标注，显著降本提效

传统语料构建流程（采集、清洗、人工标注）耗时耗力，且重复性高。
通过 Dify 构建基于大模型的语料生成 Agent，可自动生成多轮对话、复杂问答、知识问答等任务语料，尤其适用于客服、搜索、智能问答等场景。
配合预设 Prompt 和规则，还可生成带标签的训练数据，有效替代部分人工数据标注工作。

2）可配置可控的 Prompt 引导，支持多业务场景定制化生成

Dify 支持通过自定义 Prompt 模板和变量注入，动态控制生成语料的风格、长度、内容范围。
这意味着你可以快速切换语料风格或业务类型，如切换生成“客服语料”→“知识库补全”→“用户行为预测问答”等。

3）零代码配置 + API 化输出，轻松集成现有系统

Dify 提供可视化界面配置工作流，无需复杂开发，也能构建完整的语料生成流程。生成后的 Agent 可直接发布为 API，被训练平台或数据平台直接调用。

下面我们来手把手一起来实战！！！

用 Dify +大模型实现自动化语料数据的生成。

获取DeepSeek API Key

可使用DeepSeek 官方或其它云平台大模型提供的DeepSeek API服务

AlayaNeW平台的DeepSeek API Key获取指南：

https://docs.alayanew.com/docs/modelService/case/Dify/

Dify本地部署与配置

安装 Dify 之前, 请确保你的机器已满足最低安装要求

CPU >= 2 Core
RAM >= 4 GiB

1）克隆 Dify 源代码至本地环境。

# 假设当前最新版本为 1.1.0git clone https://github.com/langgenius/dify.git --branch 1.1.0

2）启动 Dify，进入 Dify 源代码的 Docker 目录

cd dify/docker

3）复制环境配置文件

cp .env.example .env

4）启动 Docker 容器

如果版本是 Docker Compose V2，使用以下命令：

docker compose up -d

如果版本是 Docker Compose V1，使用以下命令：

docker-compose up -d

运行命令后，你应该会看到类似以下的输出，显示所有容器的状态和端口映射：

[+] Running 11/11 ✔ Network docker_ssrf_proxy_network  Created                                                                 0.1s  ✔ Network docker_default             Created                                                                 0.0s  ✔ Container docker-redis-1           Started                                                                 2.4s  ✔ Container docker-ssrf_proxy-1      Started                                                                 2.8s  ✔ Container docker-sandbox-1         Started                                                                 2.7s  ✔ Container docker-web-1             Started                                                                 2.7s  ✔ Container docker-weaviate-1        Started                                                                 2.4s  ✔ Container docker-db-1              Started                                                                 2.7s  ✔ Container docker-api-1             Started                                                                 6.5s  ✔ Container docker-worker-1          Started                                                                 6.4s  ✔ Container docker-nginx-1           Started                                                                 7.1s

5）登录并注册Dify

6）登录 Dify 配置 “模型供应商”

配置“模型供应商”，选择 “OpenAI-API-compatible”，输入申请到的 “API Key” 和 “URL” 后点击“保存”，如下图示例完成 “AlayaNew/DeepSeek-R1” LLM的配置。

通过Dify创新创建智能体

1）Dify 的编排流程图

我们先看一下整体的编排流程图，只需简单5个步骤即可完成创建。

2）开始创建智能体

接下来我们开始创建智能体。首先进入 Dify “工作室”，点击“创建空白应用”。

具体配置如下图。

3）工作流节点介绍

开始

点击节点“+”，配置“开始”节点中获取上传的文件和其他变量，配置如下图。

文档提取器

该节点“输入变量”中，配置从“开始”节点中获取上传的文件，输出变量就是上传的数据内容，配置如下图。

代码执行节点

该节点“输入变量”中，text 配置从“文档提取器”节点中获取输出内容，characters 配置从“开始”节点中获取变量characters，默认是100，配置如下图。（该节点的主要作用是读取文本前100（默认）个字符，防止太多，给大模型时比较慢）

代码如下：

def main(text: str, characters: int = 100) -> dict:    """    获取输入字符串的前 characters 个字符，并返回一个字典。        :param text: 输入字符串    :param characters: 要截取的字符数量（默认值为 100）    :return: 包含截取结果的字典    """    result = text[:characters]    print(f"输入字符串长度: {len(text)}, 截取的长度: {len(result)}")  # 打印调试信息    return {"result": result}

Fine-tuning 语料构建节点（LLM）节点中，“模型”选择配置的

“AlayaNeW/DeepSeek-R1”，“SYSTEM” 中增加提示词。

“USER” 中增加用户上传内容，该节点具体配置如下图。

Fine-tuning 语料构建系统提示词：

【角色】你是一位 LLM 大语言模型科学家，参考用户提供的「内容」，帮助用户构造符合规范的 Fine-tuning（微调）数据。【任务】·你需要根据「内容」，每次生成 20 个 贴近现实生活的「问题」。针对每个「问题」，引用「内容」的原文，并结合合理的解释和演绎，提供「解答」。最终，将「问题」「解答」整理为 JSONL 规范格式。【要求】1、不要 直接照搬「内容」，而是围绕其核心思想，以 通俗易懂的方式 重新表述问题。2、避免“假、大、空” 的表述，确保问题贴近现实生活场景，能够引发思考。3、答案撰写，忠于原文，不可扭曲原意，但可以适当拓展解释。4、结合现代背景进行演绎，但不能脱离「内容」的核心主旨。【输出规范】* 输出规范的 JSONL，每行一条数据* 每条数据应包含一个 message 数组，每个数组都应该包含 role 分别为 system、user 和 assistant 的三条记录* 其中 role 为 system 的数据，作为训练中的 system prompt 格外重要，其 content 使用用户指定的「触发词」* role 为 user 的数据对应列出的「问题」* role 为 assistant 的数据则对应针对「问题」的「解答」* 示例如下：```{"messages": [{"role": "system", "content": "你是中医养生大师"}, {"role": "user", "content": "长期对着电脑眼睛干涩怎么办？"}, {"role": "assistant", "content": "肝开窍于目，现代用眼过度耗伤肝血。可在办公桌常备菊花枸杞茶：杭白菊5朵、枸杞10粒沸水冲泡。每日晨起闭眼按揉太冲穴（足背第一二跖骨间）100次，睡前热敷眼部促进气血循环。"}]}```

Fine-tuning 语料构建USER提示词：

提示词的原理

提示词是与大模型交互时，用于引导模型生成特定类型输出的文本或指令。通过精心设计的提示词，可以激活模型中与特定任务相关的知识，使其在无需大规模微调的情况下，直接应用于下游任务

设计提示词的注意事项

a.明确角色和任务：在提示词中需明确 AI 的角色和任务要求。例如，定义 AI 为“乐于助人的助手”，并规定回复逻辑：

你是一位乐于助人的AI助手。在回答用户问题时，你需要：1、始终使用自然语言解释你将要采取的行动；2、清晰描述正在进行的操作3、避免返回空回复

这种角色设定有助于模型理解其行为准则，生成符合预期的回复。

b.清晰且具体：提示词应明确描述任务需求，避免歧义。例如，与其使用“总结这篇文章”，不如使用“请用三句话总结这篇关于人工智能应用的文章”。

c.简洁性：提示词应尽量简洁，避免冗余信息干扰模型的推理。

d.提供示例（Few-shot 提示）：通过提供示例，引导模型生成符合预期格式的输出。例如

示例：输入：天气如何？输出：今天阳光明媚，气温适中，合适外出活动

这种方式能有效引导模型生成与示例相似的输出。

e.控制输出格式：如果需要特定的输出格式，可以在提示词中明确说明。例如，要求模型以列表形式回答问题。

f.迭代优化：提示词的设计是一个反复试验的过程。根据模型的输出，不断调整和优化提示词，以达到最佳效果。

结束节点

结束节点中，输出的变量来源上一个节点的输出，具体配置如下图。

4)发布智能体

完成创建后，点击发布后点击运行。

5）智能体对话演示

智能体对话中上传文件后。演示效果如下图。

最终语料生成的样例:

至此，我们完成了高质量Fine-tuning语料的准备工作，借助这些的语料数据，我们可以让AI模型更精准地理解特定业务场景。

通过语料数据的多样性，模型能够更好地适应不同的应用需求，从而提供更加智能化的服务。

这一过程不仅为AI模型的微调奠定了坚实的基础，也为将来在实际业务中高效落地和应用AI技术提供了保障。

如何系统的去学习大模型LLM ？

大模型时代，火爆出圈的LLM大模型让程序员们开始重新评估自己的本领。 “AI会取代那些行业？”“谁的饭碗又将不保了？”等问题热议不断。

事实上，抢你饭碗的不是AI，而是会利用AI的人。

继科大讯飞、阿里、华为等巨头公司发布AI产品后，很多中小企业也陆续进场！超高年薪，挖掘AI大模型人才！ 如今大厂老板们，也更倾向于会AI的人，普通程序员，还有应对的机会吗？

与其焦虑……

不如成为「掌握AI工具的技术人」，毕竟AI时代，谁先尝试，谁就能占得先机！

但是LLM相关的内容很多，现在网上的老课程老教材关于LLM又太少。所以现在小白入门就只能靠自学，学习成本和门槛很高。

基于此，我用做产品的心态来打磨这份大模型教程，深挖痛点并持续修改了近70次后，终于把整个AI大模型的学习门槛，降到了最低！

在这个版本当中：

第一您不需要具备任何算法和数学的基础
第二不要求准备高配置的电脑
第三不必懂Python等任何编程语言

您只需要听我讲，跟着我做即可，为了让学习的道路变得更简单，这份大模型教程已经给大家整理并打包，现在将这份 LLM大模型资料 分享出来：包括LLM大模型书籍、640套大模型行业报告、LLM大模型学习视频、LLM大模型学习路线、开源大模型学习教程等, 😝有需要的小伙伴，可以 扫描下方二维码领取🆓↓↓↓

一、LLM大模型经典书籍

AI大模型已经成为了当今科技领域的一大热点，那以下这些大模型书籍就是非常不错的学习资源。

在这里插入图片描述

二、640套LLM大模型报告合集

这套包含640份报告的合集，涵盖了大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师，还是对AI大模型感兴趣的爱好者，这套报告合集都将为您提供宝贵的信息和启示。(几乎涵盖所有行业)
在这里插入图片描述

三、LLM大模型系列视频教程

在这里插入图片描述

四、LLM大模型开源教程（LLaLA/Meta/chatglm/chatgpt）

在这里插入图片描述

五、AI产品经理大模型教程

在这里插入图片描述

LLM大模型学习路线 ↓

阶段1：AI大模型时代的基础理解

目标：了解AI大模型的基本概念、发展历程和核心原理。
内容：
- L1.1 人工智能简述与大模型起源
- L1.2 大模型与通用人工智能
- L1.3 GPT模型的发展历程
- L1.4 模型工程
- L1.4.1 知识大模型
- L1.4.2 生产大模型
- L1.4.3 模型工程方法论
- L1.4.4 模型工程实践
- L1.5 GPT应用案例

阶段2：AI大模型API应用开发工程

目标：掌握AI大模型API的使用和开发，以及相关的编程技能。
内容：
- L2.1 API接口
- L2.1.1 OpenAI API接口
- L2.1.2 Python接口接入
- L2.1.3 BOT工具类框架
- L2.1.4 代码示例
- L2.2 Prompt框架
- L2.3 流水线工程
- L2.4 总结与展望