- 博客(155)
- 收藏
- 关注
原创 大模型训练与推理主流框架技术报告
本报告围绕大模型训练与推理的核心痛点,深度解析DeepSpeed两大训练框架与vLLM推理框架的技术原理、并行策略、优化机制及落地实践,覆盖显存、计算、通信三大核心瓶颈的解决方案,为大模型工程化落地提供技术参考。训练阶段:Megatron-LM以多层并行适配MoE/大参数量模型;DeepSpeed以ZeRO零冗余从存储端破局,二者互补支撑超大规模模型训练。推理阶段:vLLM通过分页KV缓存+连续批处理,实现高并发、高利用率推理,适配多模态与业务化调优。
2026-03-26 17:08:00
274
原创 基于OpenClaw环境的Agent强化学习(RFT+GRPO)训练机制与自动化实践报告
本报告围绕OpenClaw体系下Agent的强化学习(RL)训练方法论,重点解析**RFT(Reward Fine-Tuning,奖励微调)+ GRPO(Group Relative Policy Optimization)**训练链路,并结合自动化工具,梳理从需求输入到模型部署的全流程实践方案。报告旨在降低大模型RL训练门槛,实现自然语言驱动的训练自动化,为OpenClaw环境下Agent的偏好对齐与任务性能优化提供可落地的技术路径。# 进阶版RFT+GRPO训练命令。
2026-03-20 11:11:38
592
原创 如何查看数据库表的磁盘占用情况
MySQL核心方法:系统层面用df -hdu -sh看整体,数据库内用查库/表级占用;关键指标:区分「数据大小」和「索引大小」,索引通常会占10%-50%的总空间;排查重点:若磁盘占用突增,优先检查大表、二进制日志(binlog)或慢查询日志。这些方法都是行业通用的最佳实践,命令可直接复制执行,新手只需替换对应的数据库名/目录路径即可。
2026-03-20 10:27:16
189
原创 Agent Skill 完整实现报告
Agent Skill是智能体的“功能单元”,每个Skill独立封装特定业务逻辑(如内网日志查询、第三方API调用、bash命令执行、文件处理等),拥有唯一标识(skill_id)、输入输出规则、执行逻辑及运行依赖,可按需配置、加载、调用,实现Agent功能的模块化扩展与灵活复用。核心特点:独立性:每个Skill独立封装逻辑,不依赖其他Skill,可单独加载、更新、销毁;可配置性:Skill的所有规则(匹配描述、执行逻辑、依赖配置)均通过SKILL.md文件定义,与代码解耦;
2026-02-28 18:19:09
701
1
原创 LLM强化微调核心技术及冷启动全量数据训练实战报告
本报告整合了LLM(大语言模型)强化微调相关的核心技术要点,围绕GRPO(Group Relative Policy Optimization)算法、KL惩罚与KL散度约束、PPO-Clip组件,重点聚焦“冷启动模型+全量偏好数据DAPO(Direct Adaptive Policy Optimization)训练”这一高难度实战场景,结合Epoch训练的节奏控制,系统梳理各技术的核心原理、实战流程、超参调优及常见问题解决方案。
2026-02-10 17:42:34
429
原创 Seed Prover及相关强化学习核心方法技术报告
本报告系统梳理字节跳动Seed团队研发的Seed Prover自动化定理证明系统、其核心训练框架VAPO算法,以及支撑VAPO价值估计的三大核心方法——蒙特卡洛(Monte Carlo, MC)、时序差分学习(Temporal Difference, TD)、广义优势估计(Generalized Advantage Estimation, GAE)。
2026-02-10 16:28:23
376
原创 veRL(Volcano Engine Reinforcement Learning for LLMs):大模型强化学习的高效生产级框架
veRL通过混合控制器+3D-HybridEngine灵活如脚本:单进程控制流使开发者能像写Python脚本一样定义复杂RL流程高效如专用芯片:多进程计算流+3D引擎优化,使GPU利用率达70%+,远超行业平均兼容如瑞士军刀:无缝集成主流训练/推理框架,保护用户现有基础设施投资在大模型强化学习领域,veRL已成为继DeepSpeed、Hugging Face之后的重要选择,特别适合追求高性能+高灵活性的生产环境和研究场景。
2026-01-30 17:32:27
652
原创 模型 RL/RFT 训练
核心定位:三大机器学习范式之一(监督/无监督/强化),核心是智能体(Agent)通过与环境交互,学习最大化长期累积奖励的决策策略。本质逻辑:不依赖标注数据的“输入-输出”映射,而是通过“执行动作→获取反馈→调整策略”的闭环,让模型自主优化行为(如 LLM 的生成策略、智能体的工具调用策略)。关键特征反馈信号是“奖励值”(而非标签),可能延迟(如多轮对话后才获得反馈);优化目标是“策略收敛”(让模型生成的动作更接近最优解);
2026-01-30 17:17:32
664
原创 归一化说明
在 AI 算法训练中,是一种,核心是将缩放到(最常见为01),消除数据间的量级差异对模型训练的干扰,最终提升训练效率、稳定性与模型泛化能力。归一化的本质是**“消除特征间的不公平竞争”**——如果不同特征的数值范围差异过大(比如一个特征是“身高:150-190cm”,另一个是“年收入:0-1000000元”),基于梯度下降的模型会优先偏向数值范围大的特征,导致训练方向偏离最优解。
2026-01-23 11:09:07
742
原创 ToolCall(大模型工具调用)深度解析
ToolCall(工具调用)是大语言模型(LLM)基于用户需求,自主决策是否调用外部工具、选择匹配工具、生成标准化调用参数、整合工具返回结果并输出自然语言回答的核心能力。它的本质是让大模型突破“纯文本生成”的边界,成为能与外部系统交互的“智能体(Agent)”——相当于给大模型装上了“动手做事的手”。核心逻辑:ToolCall的本质是让大模型从“文本生成”升级为“任务执行”,核心流程是「意图识别→参数生成→工具执行→结果整合」,标准化的工具描述是所有调用的基础;企业落地关键。
2026-01-14 17:11:07
1050
原创 ClaudeCode 全面解析:机制原理、应用方法与核心作用
核心原理:ClaudeCode是“Claude模型+标准化Skill+安全沙盒”的组合,通过SKILL.md定义操作规则,模型匹配意图后在沙盒中执行指令;应用核心:关键是编写标准化的SKILL.md(明确元信息、执行规则、交互逻辑),并将其部署到指定目录,模型即可按规则执行任务;核心价值:降低自然语言到业务操作的转化门槛,适配企业内网安全场景,实现标准化、自动化的任务执行。
2026-01-14 15:43:13
1596
原创 RLHF与RLvR 深度解析:技术原理、对比及未来趋势
RLHF 是三阶段流水线方法,通过监督微调(SFT)→ 奖励模型(RM)训练 → 强化学习(RL)微调的闭环,将人类的主观偏好转化为模型可优化的数学目标,最终让模型输出符合人类预期。RLvR 是单阶段方法,跳过人类标注和奖励模型训练,直接以参考模型的输出或概率分布作为反馈信号,通过强化学习微调模型,让模型输出对齐参考模型的“偏好”。技术本质:RLHF 是“人类主导”的高成本、高效果方案,RLvR 是“AI 主导”的低成本、高效率方案。短期趋势:RLvR 更适合企业级垂类大模型的规模化落地,优势显著;
2026-01-13 10:24:42
529
原创 智能体构建技术方案
📌【智能体构建最重要的文档】:所有智能体的层级结构、PE模板、代码示例、调用方法的全集链接,请点开查看:Sheet1- 模块清单:完成特定子任务的功能模块清单,包括模块输入、输出,代码示例等;Sheet2- 节点清单:实现大模型调用或工具执行的基本功能单元,包括节点输入、输出、PE模板等;Sheet3- 模型清单:适用于不同场景的推荐选用模型,包括参数量、地址、场景说明。智能体是一种能够感知环境并采取行动以实现特定目标的系统,具备规划、工具使用和环境交互等能力。按照智能体的自由度进行划分,可将其分为以下三
2025-12-05 16:02:08
1239
原创 智能体开发框架选型
crew初始化时memory设置为True,当task的output被标记为finalized时,将Task的output文本向量化并追加写入到ChromaDB。② Session.state存储仅限当前特定持续对话相关临时数据的空间:个性化交互、跟踪任务进度、累积信息、做出明确决策。MsgHub的异步上下文管理器来简化消息广播,MsgHub中的智能体将自动接收其他参与者通过reply函数返回的消息。功能强大的reducer算子,通过类型注解绑定到State对应的字段,提供声明式的状态更新规则。
2025-12-05 14:59:54
640
原创 netstat 查看网络连接关联进程
netstat 查看进程的核心是关联网络连接与进程平台关联进程的核心命令关键参数Linux(监听端口)/ `sudo netstat -anpgrep ESTABLISHED`(已连接)macOS(显示PID)+(查进程名)-p(仅PID)Windows(PID)/(进程名,需管理员)-o(PID)、-b(进程名)ps -ef(所有进程)、top(实时进程);tasklist(命令行)、任务管理器(图形界面)。
2025-12-05 14:42:02
1103
原创 解决 UID/GID 映射不足导致的解压失败问题
1. 重置虚拟机 podman machine stop && podman machine rm -f && podman machine init --cpus 4 --memory 8192 && podman machine start # 2. 进入虚拟机并配置映射+拉取(一键执行) podman machine ssh "sudo -i <<'EOF'EOF"执行过程中会提示输入:仓库用户名;仓库密码;若最终输出或镜像信息,说明拉取成功。
2025-11-26 15:02:14
338
原创 Volcano:Kubernetes 生态的高性能批处理调度系统全解析
Volcano 是 K8s 生态中最成熟、功能最完备的批处理调度系统,其核心价值在于“让批处理任务在 K8s 集群中高效、有序、稳定执行”。它通过批处理专属调度算法、精细化资源管理、全生命周期任务管控,完美解决了 AI 训练、大数据计算、HPC 等场景的核心痛点。
2025-11-20 17:39:30
1306
原创 五类存储产品(OSS/通用型NAS/极速型NAS/CPFS/智算CPFS):全解析+优劣势对比
本质:以“对象”为基本存储单元(每个对象包含数据体、元信息、唯一Key),无传统文件系统的树形目录结构,通过S3/OSS API或HTTP/HTTPS访问,属于“无状态存储”。架构特点:分布式集群架构,数据分片存储在多个节点,元数据独立管理,支持无限横向扩展。核心优势扩展性无上限:支持从GB级扩容至EB级,按需付费,无容量瓶颈;成本极低:按实际存储量计费,无性能溢价,长期归档成本比文件存储低30%-50%;
2025-11-20 16:22:25
1073
原创 CPU、GPU、PPU 三类芯片:详细解析、优劣势与核心区别
是计算机系统的核心,负责执行所有类型的通用计算任务,设计目标是“适配所有场景、高效处理复杂逻辑”,而非单一任务的极致性能。CPU 是“系统大脑”:统筹所有通用任务,是计算机运行的基础,核心价值是“通用与兼容”;GPU 是“并行算力引擎”:专攻大规模重复计算,核心价值是“极致并行与高吞吐”;PPU 是“专用工具人”:聚焦物理模拟或边缘 AI,核心价值是“专用场景的效率与功耗平衡”。
2025-11-20 16:17:34
1962
原创 手把手教你使用LlamaFactory训练意图识别模型
DPO强化学习数据核心在于chosen答案(正确答案)与rejected答案(错误答案),DPO过程中模型会拉大chosen答案与rejected答案的生成概率差距。意图识别训练需要构造QA(Question and Answer)对数据集,需要对已有的用户输入进行初步的意图标签的标注。通过业务规则或需求,定义模型需要识别的意图类型范围,以及每个类型的定义。对于在意图类型范围之外的,可归为闲聊类。训练过程中,系统会按照logging_steps的参数设置,定时输出训练日志,包含当前loss,训练进度等。
2025-11-20 14:19:12
726
原创 MoE-LoRA混合专家模型
MoE-LoRA通过“混合专家分工+低秩参数微调”的创新结合,在大模型优化中实现了“效率、性能、灵活性”的三角平衡。让中小团队也能以低成本实现大模型的多任务适配与能力扩展,无需依赖昂贵的全参数训练或超算资源。
2025-11-18 18:55:53
593
原创 详解DAPO
DAPO通过“双演员网络+直接偏好优化”的设计,在大模型对齐任务中实现了“更精准捕捉偏好、更稳定训练、更高样本效率”的平衡。让模型同时学习“应做什么”和“不应做什么”,从而更好地理解人类偏好的本质。随着大模型对对齐精度要求的提升,DAPO有望成为RLHF流程中的重要优化算法,尤其在复杂偏好场景中展现优势。
2025-11-18 18:51:20
483
原创 SFT冷启动
SFT冷启动的核心是在资源受限下,通过“小数据高质量构建+参数高效微调+快速迭代”,让预训练模型快速适配目标任务。其关键不是追求“一步到位”,而是通过种子数据建立初步任务认知,再基于评估结果逐步扩充数据、优化模型。对于新领域或数据稀缺场景,冷启动策略能显著降低微调门槛,为后续大规模优化奠定基础。
2025-11-18 18:49:25
558
原创 开源训练框架:VERL详解
VERL(视觉强化学习环境)是连接强化学习算法与真实视觉任务的关键桥梁,通过模拟高维视觉输入和多样化场景,为智能体提供了“练兵场”。降低视觉强化学习的实验门槛,推动算法在机器人、自动驾驶等依赖视觉感知的领域落地。
2025-11-18 16:00:38
705
原创 开源训练框架:MS-SWIFT详解
MS-SWIFT通过多尺度窗口划分和动态稀疏连接,在长序列处理中实现了“效率与精度”的平衡,解决了传统Transformer在超长输入场景下的计算和内存瓶颈。其核心价值在于:让大模型能够高效处理10万+token的长文本或多模态序列,同时保持接近全局注意力的性能,为长文档理解、视频分析等场景提供了关键技术支撑。
2025-11-18 15:52:43
1220
原创 开源训练框架:LLaMA-Factory详解
LLaMA-Factory 凭借多模型兼容、低门槛、全流程支持的特点,成为大模型微调领域的主流工具之一,尤其适合中小团队和个人开发者快速落地定制化模型。将复杂的微调流程标准化、自动化,让开发者聚焦于数据质量和业务需求,而非底层技术实现。随着大模型技术的发展,LLaMA-Factory 正持续扩展对新模型(如 Llama 3、Qwen 2.0)和新技术(如 MoE 模型微调、长上下文适配)的支持,进一步降低大模型定制化的技术门槛。
2025-11-18 15:48:02
686
原创 vllm命令参数详解
内存管理技术,支持动态批处理(Dynamic Batching)、张量并行等特性,能显著提升大模型的推理吞吐量(Throughput)并降低延迟(Latency),广泛用于生产环境的大模型部署。是 vllm 框架提供的模型部署命令,用于将指定模型加载到 GPU 中,并启动一个支持 HTTP/RESTful API 的推理服务。vllm 是一款高性能的 LLM 推理框架,基于。指定模型推理时的数据类型为。
2025-11-17 19:23:48
2000
原创 mem0:一个专注于AI应用记忆管理的开源工具
mem0通过构建结构化、可管理的记忆系统,解决了LLM应用中“上下文有限、记忆碎片化”的核心痛点。它不仅能让AI“记住”关键信息,更能“智能地”提取、检索和更新记忆,从而在长对话、个性化服务场景中提供更连贯、贴合需求的体验。开箱即用的记忆管理能力(无需从零设计存储和检索逻辑)、与主流框架的无缝集成(降低接入成本)、可定制的记忆规则(适配不同业务场景)。
2025-11-13 17:02:46
673
原创 LangFuse使用实践:从集成到优化的全流程指南
LangFuse的核心价值在于通过“追踪-管理-评估”三位一体的功能,让LLM应用开发从“经验驱动”转向“数据驱动”。快速集成:先用基础追踪功能覆盖核心流程,建立可观测性;迭代优化:通过提示词管理和A/B测试,持续提升输出质量;体系化建设:结合评估系统和告警机制,构建稳定的生产环境。通过本文的实践指南,团队可在1-2周内完成LangFuse的落地,将LLM应用的调试效率提升50%以上,同时显著降低线上故障风险。
2025-11-13 16:50:37
1671
原创 Human-in-the-loop(HITL):人机协同驱动AI持续进化
HITL是指在AI系统的运行或训练过程中,人类在关键节点介入决策、审核或修正,将人类判断转化为可量化的反馈数据,反向优化AI模型或调整系统流程,最终实现“AI能力与人类需求”精准匹配的技术模式。Human-in-the-loop的核心价值在于打破“AI独立工作”的孤岛模式,让人类智慧成为AI的“质量把关人”与“进化燃料”。它不是AI的“替代品”,而是通过“AI提效、人类补位、数据反哺”的协同,解决AI在高风险、高精度场景中的信任问题,同时实现AI能力的持续迭代。
2025-11-13 15:57:34
914
原创 LangSmith+LangGraph本地化部署与离线调试实战指南(2025增强版)
在LLM技术深度渗透企业核心业务的今天,数据安全合规与开发连续性已成为不可忽视的生命线。某金融科技公司因云端工具处理敏感数据违反《数据安全法》被罚200万元,某AI创业公司遭遇云端API中断导致开发停滞3小时——这些真实案例凸显了本地化部署的迫切性。本文基于LangChain生态最新技术栈,系统拆解LangSmith+LangGraph本地化部署全流程,结合企业级优化方案与离线调试技巧,打造安全可控、高效稳定的LLM开发环境。本地化部署通过将LangSmith监控平台与LangGraph工作流引擎部署在企业
2025-11-13 15:49:29
1823
原创 LangSmith、Langchain、LangGraph Studio:LLM应用开发的“铁三角“
选择LangChain:快速原型、简单线性流程、轻量级应用选择LangGraph:复杂流程、状态管理、多智能体协作、需要人工干预的场景选择LangSmith:深度调试、生产监控、提示词优化、团队协作实际建议:从小型项目开始,先用LangChain构建基础功能;当流程变得复杂时引入LangGraph;应用上线后,添加LangSmith进行全面监控。三者并非互斥,而是层层递进的关系,共同构成LLM应用开发的"铁三角",让AI应用的开发与运维更加高效、可控。
2025-11-13 11:31:50
457
原创 Langfuse:LLM应用全生命周期的“显微镜“与“加速器“
Langfuse通过提供全面可观测性、协作式提示词管理和智能评估能力,已成为LLM应用开发团队的必备工具。它不仅能帮助团队快速定位和解决问题,还能系统性提升应用质量和性能,最终实现**从"黑盒试错"到"透明优化"**的开发范式转变。先接入追踪→再优化提示词→最后建立评估体系,形成持续改进的闭环。
2025-11-13 11:27:27
459
原创 Agentic RL
Agentic RL的核心价值是“让智能体具备自主解决复杂问题的能力”,它通过融合大模型的“理解与规划”和强化学习的“自主学习”,打破了传统AI“碎片化、被动化”的局限。当前在客服、运维、机器人等需要“端到端闭环”的场景落地最快,是大模型从“生成内容”走向“解决实际问题”的关键技术。
2025-11-13 10:48:03
658
原创 Rclone实战技巧
Rclone 凭借其灵活性、高性能和跨平台支持,成为数据管理的必备工具。无论是个人用户的多设备同步,还是企业级的混合云架构,都能通过其丰富的功能和参数配置实现高效、安全的数据流动。通过上述实战技巧,可进一步挖掘其潜力,解决复杂场景下的同步、加密、性能等问题。
2025-11-07 16:32:32
1216
原创 Megatron-LM 工程部署
可视化任务管理:部署 Slurm Web 界面(如 Slurmrestd + 自定义前端),支持任务提交、状态查看、日志下载。:监控 Lustre 文件系统使用率(≤80%)和 IO 带宽,避免因存储满或 IO 阻塞导致训练中断。
2025-10-16 16:43:51
1114
原创 Megatron-DeepSpeed 方案
Megatron-DeepSpeed 方案通过“序列并行优化激活值+ZeRO-3 分片参数”的协同机制,在显存紧张场景下实现万亿参数模型训练。配置 4 维并行策略(TP+PP+SP+DP),平衡显存与通信。编写 DeepSpeed 配置,启用 ZeRO-3 和激活重算。适配 Megatron 并行化模型层,确保与 DeepSpeed 兼容。监控显存和 MFU 指标,动态调整超参数。
2025-10-16 16:25:52
634
原创 Megatron-LM
Megatron-LM 是 NVIDIA 开发的高性能大语言模型训练框架,专为千亿至万亿参数级模型设计,核心优势在于通过先进的并行策略和硬件协同优化实现极致训练效率。
2025-10-16 16:19:01
569
原创 大序列长度(seq_length)导致的显存溢出(OOM)问题优化
Megatron-LM通过序列并行+上下文并行+分块处理的组合方案,在长序列训练中展现出显著的显存优势。启用和。结合和。若仍OOM,启用进行分块处理。通过以上优化,可在8卡A100集群上稳定训练seq_length=16K的70B模型,显存占用控制在60GB以内,兼顾效率与成本。
2025-10-16 16:00:26
580
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅