大模型的训练与调优,SFT(监督微调)和RLHF(基于人类反馈的强化学习)到底是什么?

大模型设计,训练,微调,强化是一个系统性的过程

大模型的训练和调优是一个系统性的,复杂性的过程;为此,研究人员为大模型的训练和微调设计了详细的方案。

今天就是介绍一下大模型优化的两个方法论,SFT——监督微调和RLHF——基于人类反馈的强化学习。‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

01.什么是SFT和RLHF?‍‍

下面是关于这两个概念的简单释义:

SFT中文释义为:一种通过监督学习进行模型微调的方法。``RLHF的释义为:一种利用人类反馈进行强化学习的方法,该方法通过收集人类对模型输出的反馈;然后使用这些反馈来优化模型的行为。

‍‍‍‍‍‍‍‍‍‍‍

说白了,不论是SFT还是RLHF的目的只有一个,那就是让模型变得更好。‍‍‍‍‍‍‍

_SFT——监督微调_‍‍‍‍

监督微调的原理很简单,就类似于学生上学,不论题目做的是对是错,老是都会告诉你一个正确的结果,也就是答案。‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

监督微调的做法就是,在大模型训练或微调的过程中,把一部分数据打上“标签”;也就是告诉大模型这些数据是什么东西。‍‍‍‍‍‍‍‍‍‍

比如,在CV(计算机视觉)领域,图像识别的大模型在训练的时候,会告诉大模型哪些图片是人,哪些图片是猫,哪些图片是狗;而人,猫,狗就是数据的标注。‍‍‍‍‍

数据标注的展现形式很多,比如文件/文件夹名称,数据与标注的对应关系等。‍

有了监督微调,大模型就知道自己在干什么,能干什么;还拿图像识别举例,监督微调之后大模型能够识别,人类,猫和狗,但它识别不出来汽车和飞机。‍‍‍‍‍‍‍‍‍‍‍‍

如果想让它识别汽车和飞机,那么就要在训练或微调的数据中加入标注的汽车和飞机的图片。‍

监督微调的应用领域比较广泛,目前主流的大模型基本上都是采用的监督微调的方式,具体的领域包括文本分类,情感分析等。‍‍‍‍‍‍‍‍‍‍‍

SFT适用于有明确任务目标和大量标注数据的任务。‍‍‍‍‍‍‍‍‍

**RLHF——基于人类反馈的强化学习**‍‍‍

RLHF应该算是两种东西的结合,RL(强化学习)和HF(人类反馈);强化学习是机器学习中的一种方法,强化学习有多种方式,而基于人类反馈的方式就叫做RLHF。

其实RLHF属于模仿人类行为学的一种方式,比如我们不论在工作或生活中做一件事总喜欢得到夸奖或赞美,这样我们就会想办法把事情做的更好。‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

从技术角度来说,RLHF需要不断收集用户反馈,比如好与坏,评分等;然后根据这些反馈训练一个奖励模型,该模型用来评价模型等输出质量。‍‍‍‍‍‍‍

然后使用强化学习算法,如PPO优化语言模型,使其输出能够最大化奖励模型。‍‍‍‍‍‍‍‍‍‍

而从应用的角度来说,RLHF主要应用于对话,内容生成等领域;比较典型的就是我们在使用一些第三方模型时,会弹出让我们评价的按钮,比如chatGPT。‍‍‍‍‍‍‍‍‍‍‍‍

目前chatGPT的能力不断加强,除了其技术架构方面的原因之外,还有一部分是基于强化学习的方式来优化其模型。‍‍‍‍‍‍‍‍‍

SFT与RLHF的异同点

说起SFT和RLHF的共同点,那它们的共同点很简单,那就是通过不同的方式让模型变得更好。‍‍‍‍‍‍‍‍‍

还有就是两者都是基于数据驱动,或者说大模型都属于数据驱动;SFT需要标注的数据,而RLHF需要人类反馈的数据。‍‍‍‍‍‍‍

至于不同点,最明显的特征有两个,第一个就是两者的实现原理不同,SFT使用的是监督学习算法,而RLHF使用的是强化学习算法。‍‍‍‍‍‍‍‍‍‍‍‍

个人开发的人工智能小程序,感兴趣的可以点击查看:

其次,就是两者的应用场景不太相同;SFT适用那种有着明确任务目标的任务,比如说分类;而RLHF适用于那种需要不断升级优化的系统,比如客服系统,问答系统等。‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

从两者的应用角度来说,选择SFT方法的企业较多,使用RLHF的企业相对较少。

并不是说RLHF技术比SFT的差,而是目前的人工智能生态还无法大规模使用RLHF,一是因为应用场景较少,二是技术要求和成本较高。‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署

第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型
  • 带你了解全球大模型
  • 使用国产大模型服务
  • 搭建 OpenAI 代理
  • 热身:基于阿里云 PAI 部署 Stable Diffusion
  • 在本地计算机运行大模型
  • 大模型的私有化部署
  • 基于 vLLM 部署大模型
  • 案例:如何优雅地在阿里云私有部署开源大模型
  • 部署一套开源 LLM 项目
  • 内容安全
  • 互联网信息服务算法备案

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

在这里插入图片描述

<think>嗯,用户现在问的是如何部署DeepSeek训练财务智能助手。首先,我需要理解用户的背景。之前他们询问过数据湖架构,可能是在处理大数据相关的项目,现在转向AI模型的部署,特别是财务领域。这可能意味着他们需要将数据湖中的财务数据用于训练一个智能助手,比如用于财务分析、预测或者自动化处理。 接下来,我需要考虑用户可能的需求。财务数据通常敏感且结构化,可能需要高度的准确性安全性。用户可能希望这个智能助手能够处理财务报表、交易记录、市场数据等,同时符合合规要求,比如GDPR或者金融行业的监管规定。 用户可能没有明确提到的深层需求包括模型的可解释性、实时处理能力、现有系统的集成,以及如何处理数据隐私问题。此外,部署后的维护监控也是关键点,尤其是在财务领域,模型的持续性能评估更新非常重要。 现在,我需要回忆DeepSeek相关的信息。假设DeepSeek是一个类似于BERT或GPT的预训练模型,但可能针对中文或特定领域进行了化。如果是开源模型,部署步骤可能包括环境配置、数据准备、模型训练微调、评估、部署监控。如果是私有框架,可能需要参考官方文档,但这里需要给出通用步骤。 需要分步骤来解答:数据准备、模型选择微调训练基础设施、部署方式、安全合规、持续化。每个步骤都要具体,尤其是财务数据的特殊性,比如数据标注、特征工程、合规性处理。 可能遇到的挑战包括数据不足或噪声过多,模型过拟合,实时推理的延迟,以及合规性检查。在回答中需要提到这些挑战的应对措施,比如数据增强、正则化、使用高效的推理框架,以及审计日志等。 还要考虑到用户可能对成本敏感,特别是在训练部署阶段,需要建议成本控制的方法,比如使用云服务的竞价实例,化模型大小,或者分布式训练以提高效率。 最后,确保回答结构清晰,步骤明确,涵盖从数据准备到部署维护的全流程,并强财务领域的特殊注意事项,比如安全、合规可解释性。部署</think>DeepSeek训练财务智能助手需要结合领域数据、模型工程化实践。以下是分阶段落地的关键步骤及注意事项: --- ### **1. 明确目标场景** - **业务需求** 明确财务智能助手的功能边界(如财报分析、风险预测、税务问答、合规审核),确定输出形式(文本生成、分类标签、数值预测)。 例如: - 自动化财报摘要生成 - 企业财务风险评级 - 税务政策问答合规建议 - **合规要求** 财务数据敏感性强,需提前规划数据隐私(如GDPR、PCIDSS)、审计日志、模型可解释性(如SHAP值分析)等合规要求。 --- ### **2. 数据准备治理** - **数据来源** - **结构化数据**:企业ERP(如SAP)、财务系统(总账、应收应付)、股票市场数据(如Wind/Reuters API)。 - **非结构化数据**:财报PDF、合同文本、邮件沟通记录、监管政策文件。 - **领域知识库**:会计准则(IFRS/GAAP)、税法条款、行业分析报告。 - **数据预处理** - **结构化数据**:清洗字段歧义(如“收入”在不同系统的定义),对齐时间粒度(日/月/季报)。 - **非结构化数据**: - 使用OCR(如Tesseract、Azure Form Recognizer)提取PDF/扫描件中的表格文本。 - 通过NLP工具(Spacy、FinBERT)抽取关键实体(公司名、金额、时间)。 - **数据标注**:对问答场景构建<问题, 答案>对,需领域专家参(如标注税务条款的适用场景)。 - **数据安全** - 敏感字段脱敏(如企业银行账号),数据加密存储(如AWS KMS),访问权限控制(RBAC)。 --- ### **3. 模型选择** - **基础模型选择** - **通用模型**:若DeepSeek基于类似LLaMA、GPT架构,需评估其对财务术语的理解能力。 - **领域适配**: - **方案1**:在DeepSeek基础上继续预训练,注入财务语料(如SEC文件、中文财报)。 - **方案2**:使用LoRA/QLoRA等参数高效微调技术,适配细分任务(如现金流预测)。 - **任务微调** - **监督微调SFT)**: 构建任务数据集,例如: ```python # 示例:财报摘要生成任务的数据格式 { "input": "2023年Q3财报原文...(长文本)", "output": "营收同比增长20%,净利润受汇率影响下降5%..." } ``` - **强化学习RLHF)**: 引入财务专家反馈化模型输出(如避免合规风险表述)。 - **评估指标** - **生成任务**:ROUGE-L、BLEU(内容覆盖度) + 人工评估(准确性、合规性)。 - **分类任务**:F1-score、AUC-ROC(如风险预测)。 - **数值预测**:MAE、RMSE(如营收预测)。 --- ### **4. 训练基础设施搭建** - **硬件选型** - **GPU集群**:针对大模型训练,使用A100/H100集群,结合ZeRO-3化显存。 - **低成本替代**:对中小规模任务,可使用单机多卡(如8×RTX 4090) + DeepSpeed。 - **训练框架** - 基于PyTorch/Hugging Face Transformers,集成混合精度训练(AMP)、梯度检查点(Gradient Checkpointing)。 - 分布式训练:采用FSDP(Fully Sharded Data Parallel)或Horovod。 - **代码示例(精简版)** ```python from transformers import AutoTokenizer, AutoModelForCausalLM, TrainingArguments from peft import LoraConfig, get_peft_model import torch # 加载DeepSeek基础模型 model = AutoModelForCausalLM.from_pretrained("deepseek-ai/deepseek-llm-7b") tokenizer = AutoTokenizer.from_pretrained("deepseek-ai/deepseek-llm-7b") # 注入LoRA适配器 lora_config = LoraConfig( r=8, lora_alpha=32, target_modules=["q_proj", "v_proj"], lora_dropout=0.1 ) model = get_peft_model(model, lora_config) # 配置训练参数 training_args = TrainingArguments( output_dir="./output", per_device_train_batch_size=4, gradient_accumulation_steps=8, learning_rate=2e-5, fp16=True, logging_steps=10, num_train_epochs=3 ) # 开始训练(需接入自定义数据集) trainer = Trainer( model=model, args=training_args, train_dataset=train_dataset, data_collator=lambda data: { "input_ids": torch.stack([f["input_ids"] for f in data]), "labels": torch.stack([f["labels"] for f in data]) } ) trainer.train() ``` --- ### **5. 部署工程化** - **模型化** - **量化**:使用GPTQ/AWQ将模型转为4bit/8bit,降低推理显存(如将7B模型显存从14GB降至6GB)。 - **编译化**:通过TensorRT-LLM或vLLM提升推理速度。 - **服务化架构** - **实时API**:使用FastAPI/Flask封装HTTP接口,部署至Kubernetes集群。 - **异步处理**:对长文本分析任务,集成Celery + RabbitMQ队列。 - **缓存机制**:对高频问题(如“增值税率”),使用Redis缓存结果。 - **监控告警** - 使用Prometheus + Grafana监控GPU利用率、请求延迟。 - 对输出内容设置关键词过滤(如“投资建议”需触发人工复核)。 --- ### **6. 持续迭代合规** - **数据闭环** 收集用户反馈(如标注错误答案),定期更新训练数据。 - **模型再训练** 当政策变化时(如新税法发布),触发增量训练流程。 - **审计可追溯** 记录模型版本、训练数据快照、推理请求日志,满足金融审计要求。 --- ### **关键挑战应对** 1. **领域知识缺失** - 联合训练:将结构化财务指标(如ROE、资产负债率)作为特征输入模型。 - 输出限制:通过Guardrails库禁止生成投资建议类内容。 - 人工审核层:高风险场景(如并购分析)需人工确认后发送。 3. **长文本处理** - 采用LongLoRA等技术扩展上下文窗口(如从4k→32k tokens),适配完整财报分析。 --- ### **总结** 部署财务智能助手的核心是**领域适配****安全可控**。建议分阶段推进: 1. 从垂直场景(如税务问答)切入,验证可行性; 2. 通过RAG+微调快速迭代; 3. 最终构建覆盖财务全流程的AI助手,同时建立严格的合规护栏。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值