【ms-swift 大模型微调实战】

最新推荐文章于 2025-04-23 08:00:00 发布

放飞自我的Coder

最新推荐文章于 2025-04-23 08:00:00 发布

阅读量1.6k

点赞数 7

文章标签： ms-swfit 大模型微调

本文链接：https://blog.csdn.net/qq_39749966/article/details/143285892

版权

安装环境

pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple
pip install modelscope vllm ‘ms-swift[llm]’ -U

下载模型

modelscope download --model Qwen/Qwen2.5-7B-Instruct --local_dir ./Qwen2.5-7B-Instruct

微调

实验环境：4 * A100# 显存占用：4 * 70GB

    NPROC_PER_NODE=4 CUDA_VISIBLE_DEVICES=0,1,2,3 swift sft \
        --model_type qwen2_5-72b-instruct \
        --model_id_or_path Qwen2.5-72B-Instruct \
        --dataset qwen2-pro-en#500 qwen2-pro-zh#500 self-cognition#500 \
        --logging_steps 5 \
        --learning_rate 1e-4 \
        --output_dir output \ 
        --lora_target_modules ALL \
        --model_name 小黄 'Xiao Huang' \
        --model_author 魔搭 ModelScope \
        --deepspeed default-zero3

单卡A10/3090可运行的例子（Qwen2.5-7B-Instruct）# 显存占用：24GB

  	CUDA_VISIBLE_DEVICES=0 swift sft \
    --model_type qwen2_5-7b-instruct \
    --model_id_or_path Qwen2.5-7B-Instruct \
    --dataset qwen2-pro-en#500 qwen2-pro-zh#500 self-cognition#500 \
    --logging_steps 5 \
    --max_length 2048 \
    --learning_rate 1e-4 \
    --output_dir output \
    --lora_target_modules ALL \
    --model_name 小黄 'Xiao Huang' \
    --model_author 魔搭 ModelScope

融合lora

CUDA_VISIBLE_DEVICES=0,1 swift export \    
        --ckpt_dir output/qwen2_5-72b-instruct/vx-xxx/checkpoint-xxx \    
        --merge_lora true

vLLM部署

vllm serve xxxxx-checkpoint-merged [opentional args]

参考

Qwen2.5 全链路模型体验、下载、推理、微调、部署实战！
https://github.com/modelscope/ms-swift
自定义数据集
微调文档
推理文档

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

放飞自我的Coder

关注关注

7
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
打赏
打赏
打赏举报

举报

LLM 大模型学习必知必会系列(十三)：基于SWIFT的VLLM推理加速与部署实战

丨汀、的博客

05-28

1597

LLM 大模型学习必知必会系列(十三)：基于SWIFT的VLLM推理加速与部署实战

【DeepSeek微调实践】DeepSeek-R1大模型基于MS-Swift框架部署/推理/微调实践大全

寻道AI，探索AI无限可能！

03-31

6810

MS - Swift 是一款专为大模型部署而精心打造的高效框架，具备出色的兼容性与丰富的功能特性。在模型类型支持上，无论是专注于文本处理的纯文本模型，还是融合文本、图像、音频等多种信息模态的多模态模型，亦或是擅长文本序列分类任务的序列分类模型，MS - Swift 均能为其提供适配的部署环境。另外在功能层面，MS - Swift 框架提供了基于 Gradio 的 Web UI。

参与评论您还未登录，请先登录后发表或查看评论

AI大模型ms-swift框架实战指南（一）：框架基础篇之全景概览

寻道AI，探索AI无限可能！

04-15

2285

swift框架，全称为Scalable lightWeight Infrastructure for Fine - Tuning，由魔搭社区精心打造。魔搭社区在人工智能领域积累深厚，开发swift框架旨在解决传统大模型开发中的效率和资源管理难题。其研发团队汇聚了人工智能领域的专家，经过大量调研、实验和优化，推出了这款集高效、灵活、轻量于一体的综合性工具集，整合了大模型开发从数据处理到部署的全流程功能。在本篇章中，我们全面认识了swift框架。

MS-Swift: 革新性的大语言模型微调工具

Nifc666的博客

10-22

1884

MS-Swift是一个功能强大、使用灵活的开源工具库，专门用于大语言模型和多模态大语言模型的微调。它支持对超过300种LLM和60多种MLLM进行参数高效微调(PEFT)或全参数微调，涵盖了当前主流的各类模型，如Qwen2、GLM4v、Internlm2.5、Yi、Llama3.1、Llava-Video、Internvl2、MiniCPM-V-2.6、Deepseek、Baichuan2、Gemma2和Phi3-Vision等。正在上传…重新上传取消。

ModelScope ms-swift：轻量级模型微调框架

engchina的专栏

01-02

1338

ModelScope ms-swift：轻量级模型微调框架

【LLM大模型】介绍一个大语言模型的微调框架Swift

2301_81940605的博客

07-18

1555

微调（Fine-tuning）是指在已经预训练好的大语言模型基础上，使用特定领域或任务的数据集进行进一步的训练，使模型能够更好地适应并完成该领域或任务的具体要求。预训练的大语言模型通常在大规模通用语料库上进行训练，学习了语言的普遍规律和特征，但对于特定领域或任务的专业知识和特定需求，往往需要通过微调来优化。

16、Swift框架微调实战（1）-自我认知数据LORA微调

Andy_shenzl的博客

04-03

1191

ms-SWIFT GitHub项目主页：ms-swift（ Scalable lightWeight Infrastructure for Fine-Tuning）是由魔搭社区（ModelScope）开发的高效微调和部署框架，旨在为研究人员和开发者提供一站式的大模型与多模态大模型的训练、推理、评测、量化和部署解决方案。

深度揭秘：swift 框架下 Qwen2.5 - 7B 模型实战全流程精解

寻道AI，探索AI无限可能！

01-19

3425

在当今人工智能蓬勃发展的浪潮中，Qwen2.5-7B模型凭借其卓越的性能吸引了众多关注。然而，要充分发挥该模型的强大功能，必须深入掌握从本地部署到实际应用的各个关键环节。这一过程涵盖了构建服务器环境、精心安装各种依赖、准确下载所需模型等基础工作，为模型的顺畅运行奠定坚实根基；同时，在推理阶段，可利用swift框架结合vLLM技术进行加速，以满足不同应用场景下的多样需求；而量化技术的引入，能为模型进行“瘦身”，极大地提升资源利用效率；

【多模态大模型实战】搭建DeepSeek Janus-Pro 7B 多模态模型，以及推理微调，推理后的模型融合

m0_47867638的博客

02-07

2442

【Qwen2-Audio部署实战】智能语音模型的实践探索：Qwen2-Audio的推理与微调技巧全解析

寻道AI，探索AI无限可能！

08-29

4582

Qwen2-Audio是由阿里通义千问团队推出的一款开源AI语音模型，它不仅支持直接语音输入，还能进行多语言文本输出。该模型具备语音聊天和音频分析的功能，支持超过8种语言，包括中文、英语、粤语、法语等。Qwen2-Audio在多个基准数据集上的表现超越了先前的模型，显示出其卓越的性能。

ms-swift：一机多卡微调GLM-4-9b-chat模型操作

weixin_38472918的博客

03-02

1503

ms-swift是魔搭社区提供的大模型与多模态大模型微调部署框架，现已支持450+大模型与150+多模态大模型的训练（预训练、微调、人类对齐）、推理、评测、量化与部署。

swift自定义数据集微调Qwen-7B大模型，转换模型后使用ollama跑起来

盛世芳华

08-27

6514

-model_name 阿盛 Master Coder \--model_author 盛世芳华 LLM_ROME \微调时，只需指定--dataset为本地csv文件路径即可，csv文件的格式如下：instruction是问题，input大概能理解为问题背景，output为答案，数据集准备好以后就可以直接进行训练。ms-swift/docs/source/LLM/自定义与拓展.md at main · modelscope/ms-swift (github.com)

SWIFT - 轻量级微调模型框架 [魔搭]

技术文档翻译分享

04-06

1821

🍲 ms-swift是魔搭社区提供的大模型与多模态大模型微调部署框架，现已支持450+大模型与150+多模态大模型的训练（预训练、微调、人类对齐）、推理、评测、量化与部署。其中大模型包括：Qwen2.5、InternLM3、GLM4、Llama3.3、Mistral、DeepSeek-R1、Yi1.5、TeleChat2、Baichuan2、Gemma2等模型；

【大模型微调】SWIFT：一种可扩展的轻量级基础设施用于微调

数智笔记

08-13

2834

最近在大型语言模型（LLMs）和多模态大型语言模型（MLLMs）方面的发展，利用基于注意力的Transformer架构，实现了卓越的性能和泛化能力。它们已经涵盖了传统学习任务的许多领域。例如，基于文本的任务，如文本分类和序列标注，以及以前使用不同模型解决的多模态任务，如视觉问答（VQA）和光学字符识别（OCR），现在可以基于一个基础模型处理。因此，LLMs和MLLMs，尤其是基于Transformer架构的模型的训练和轻量级微调，变得尤为重要。

大模型管理工具：SWIFT

m0_37559973的博客

05-13

7409

SWIFT（Scalable lightWeight Infrastructure for Fine-Tuning）是魔搭ModelScope开源社区推出的一套完整的轻量级训练、推理、评估和部署工具，支持200+大模型、15+多模态大模型以及10+轻量化Tuners，让AI爱好者能够使用自己的消费级显卡玩转大模型和AIGC。

AI大模型ms-swift框架实战指南（八）：Qwen2.5-7B高效微调实践指南

最新发布

寻道AI，探索AI无限可能！

04-23

2667

在当今人工智能技术飞速发展的时代，大模型的应用日益广泛。基于 MS-Swift 框架的大模型应用开发为开发者提供了强大的工具和平台，其中微调环节更是解锁模型潜能、实现精准适配特定任务的关键步骤。本篇经过深度润色的实战指南将带您深入了解大模型微调的各个环节，从环境准备到最终的 Web-UI 推理微调，为您提供详尽且实用的操作指导。通过这一全面的大模型微调实战指南，结合 MS-Swift 框架的强大功能，您已手握开启模型潜能的钥匙。

LLM/MLLM之SWIFT：SWIFT(一个用于微调的可伸缩轻量级基础设施的工具)的简介、安装和使用方法、案例应用之详细攻略

头部AI社区如有邀博主AI主题演讲请私信—心比天高，仗剑走天涯，保持热爱，奔赴向梦想！低调，专注，谦虚，自律，反思，成长，还算比较正能量的博主，公益免费传播…内心特别想在AI界做出一些可以推进历史进程影响力的技术(兴趣使然，有点小情怀，也有点使命感呀

03-28

5408

LLM/MLLM之SWIFT：SWIFT(一个用于微调的可伸缩轻量级基础设施的工具)的简介、安装和使用方法、案例应用之详细攻略目录 SWIFT的简介 SWIFT的安装和使用方法 SWIFT的案例应用 SWIFT的简介 SWIFT(Scalable lightWeight Infrastructure for Fine-Tuning)是一个用于微调的可伸缩轻量级基础设施的工具，支持近200种LLM和MLLM（多模

Swift大模型微调以及批量推理验证

2401_85375186的博客

06-07

3288

在深度学习和自然语言处理（NLP）领域，大规模语言模型如BERT、GPT-3等通过在大量数据上进行预训练获得了强大的语言理解和生成能力。这些预训练模型通常需要进行微调（Fine-tuning），以便在特定的下游任务上表现更好。微调可以采取不同的形式，包括full、LoRA和Q-LoRA。

swift微调大模型

02-18

### 使用Swift对大型模型进行微调对于使用 Swift 对大型模型进行微调的任务，当前主要依赖于 Apple 提供的工具链以及社区支持。Apple 的 Core ML 工具允许开发者将机器学习模型集成到 iOS 应用程序中，并提供了初步的支持用于训练和优化这些模型[^1]。然而，在具体实现上，由于 Swift 主要应用于苹果生态系统内开发环境，针对大规模模型微调的工作通常先在其他平台完成（如 PyTorch 或 TensorFlow），再转换成 Core ML 格式以便部署至移动设备或 macOS 上运行。这涉及到几个关键步骤： - **准备数据集**：确保拥有高质量的数据集来调整预训练模型参数。 - **选择基础模型**：挑选适合特定任务需求的预训练模型作为起点。 - **迁移学习框架的选择**：虽然直接利用 Swift 进行端到端训练可能不是最优解法，但是可以借助 Metal Performance Shaders (MPS) 和 Create ML 来加速部分流程并简化操作[^2]。为了更好地理解如何应用 Swift 实现这一过程，下面给出一段简单的代码片段展示如何加载已有的 CoreML 模型并通过 MPS 执行推理： ```swift import Foundation import Vision import CoreML import MetalPerformanceShaders // 加载CoreML模型 guard let modelURL = Bundle.main.url(forResource: "MyModel", withExtension: "mlmodelc") else { fatalError("Failed to load model file.") } do { let configuration = MLModelConfiguration() let model = try VNCoreMLModel(for: MyModel(configuration: configuration).model) // 创建请求处理对象 let requestHandler = VNImageRequestHandler(cgImage: inputCGImage, options: [:]) try requestHandler.perform([VNCoreMLRequest(model: model)]) } catch { print(error.localizedDescription) } ``` 值得注意的是，上述例子仅展示了基于现有 CoreML 模型执行预测的过程；而对于更复杂的微调工作，则建议首先在外部门户网站上完成必要的训练阶段后再导入至 Swift 中做进一步的应用层面上的操作。