自己训练大模型
文章平均质量分 94
Brian Xia
专注于人工智能应用探索
云平台架构师
Spring AI Alibaba Commiter
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
大模型微调实战 -基于SWIFT框架
🍲 ms-swift是魔搭社区提供的大模型与多模态大模型微调部署框架,现已支持500+大模型与200+多模态大模型的训练(预训练、微调、人类对齐)、推理、评测、量化与部署。原创 2025-08-01 15:42:22 · 1609 阅读 · 0 评论 -
自己训练大模型?MiniMind 全流程解析 (二) 监督微调SFT
本文详细解析了MiniMind框架的监督微调(SFT)全流程,主要内容包括: 整体流程概述:从初始化到模型评估的完整训练流程,包括参数解析、模型加载、数据准备、训练循环等关键步骤。 核心技术实现: 对话模板处理:将原始对话转换为ChatML标准格式 损失掩码机制:仅对助手回复部分计算损失 预训练模型加载:支持标准模型和MoE架构切换 专用损失计算:应用损失掩码并保持MoE辅助损失 数据格式规范:采用标准JSONL格式存储对话数据,支持多轮对话交互。 该流程显著提高了模型对话质量,通过技术优化实现了高效训练,原创 2025-07-17 17:38:03 · 1607 阅读 · 0 评论 -
自己训练大模型?MiniMind 全流程解析 (一) 预训练
MiniMind是一个开源的大语言模型训练框架,提供从预训练到推理的全流程解决方案。本文解析其预训练流程的核心技术:1)采用余弦退火学习率调度平衡收敛与精度;2)混合精度训练结合float16前向计算与float32梯度管理加速训练;3)梯度累积技术突破显存限制;4)基于NCCL的分布式训练实现多GPU并行。框架通过模块化设计(参数解析、数据加载、训练循环等)支持高效训练,并确保实验可复现性(随机种子管理)。项目完全开源,代码详见GitHub仓库。原创 2025-07-15 16:28:57 · 1923 阅读 · 0 评论
分享