LLaMA-Factory 是一个开源的大模型微调框架,旨在为研究人员和开发者提供一个高效、灵活且易于使用的工具,用于对各种大规模语言模型(LLMs)进行微调。该项目支持多种模型架构、训练方法和数据集,适用于不同的应用场景和硬件环境,极大地降低了大模型微调的门槛。
开源地址:https://github.com/hiyouga/LLaMA-Factory
开源协议:Apache-2.0
01.项目介绍 LLaMA-Factory
多样性支持
-
多种模型:支持 LLaMA、LLaVA、Mistral、Mixtral-MoE、Qwen、DeepSeek、Yi、Gemma、ChatGLM、Phi 等众多主流大模型。
-
集成方法:涵盖(增量)预训练、(多模态)指令监督微调、奖励模型训练、PPO 训练、DPO 训练等多种训练方法。
-
多种精度:支持 16 比特全参数微调、冻结微调、LoRA 微调以及基于量化技术的 2/3/4/5/6/8 比特 QLoRA 微调。
先进技术集成
-
先进算法:集成了 GaLore、BAdam、APOLLO、Adam-mini、DoRA、LongLoRA、LLaMA Pro 等先进优化算法。
-
实用技巧:采用 FlashAttention-2、Unsloth、Liger Kernel 等技术提升训练效率和性能。
广泛任务适配
适用于多轮对话、工具调用、图像理解、视觉定位、视频识别和语音理解等多种任务场景。
实验监控与推理
-
实验监控:支持 LlamaBoard、TensorBoard、Wandb、MLflow、SwanLab 等多种实验监控工具。
-
极速推理:基于 vLLM 实现 OpenAI 风格 API、浏览器界面和命令行接口,提供高效的推理能力。
02.支持模型与训练准备支持的模型
涵盖多种主流大模型,包括但不限于:
模型名 | 参数量 | Template |
---|---|---|
Baichuan 2 | 7B/13B | baichuan2 |
BLOOM/BLOOMZ | 560M/1.1B/1.7B/3B/7.1B/176B | - |
ChatGLM3 | 6B | chatglm3 |
Command R | 35B/104B | cohere |
DeepSeek (Code/MoE) | 7B/16B/67B/236B | deepseek |
DeepSeek 2.5/3 | 236B/671B | deepseek3 |
DeepSeek R1 (Distill) | 1.5B/7B/8B/14B/32B/70B/671B | deepseek3 |
Falcon | 7B/11B/40B/180B | falcon |
Gemma/Gemma 2/CodeGemma | 2B/7B/9B/27B | gemma |
GLM-4 | 9B | glm4 |
GPT-2 | 0.1B/0.4B/0.8B/1.5B | - |
Granite 3.0-3.1 | 1B/2B/3B/8B | granite3 |
Index | 1.9B | index |
InternLM 2-3 | 7B/8B/20B | intern2 |
Llama | 7B/13B/33B/65B | - |
Llama 2 | 7B/13B/70B | llama2 |
Llama 3-3.3 | 1B/3B/8B/70B | llama3 |
Llama 3.2 Vision | 11B/90B | mllama |
LLaVA-1.5 | 7B/13B | llava |
LLaVA-NeXT | 7B/8B/13B/34B/72B/110B | llava_next |
LLaVA-NeXT-Video | 7B/34B | llava_next_video |
MiniCPM | 1B/2B/4B | cpm/cpm3 |
MiniCPM-o-2.6/MiniCPM-V-2.6 | 8B | minicpm_o/minicpm_v |
Ministral/Mistral-Nemo | 8B/12B | ministral |
Mistral/Mixtral | 7B/8x7B/8x22B | mistral |
Mistral Small | 24B | mistral_small |
OLMo | 1B/7B | - |
PaliGemma/PaliGemma2 | 3B/10B/28B | paligemma |
Phi-1.5/Phi-2 | 1.3B/2.7B | - |
Phi-3/Phi-3.5 | 4B/14B | phi |
Phi-3-small | 7B | phi_small |
Phi-4 | 14B | phi4 |
Pixtral | 12B | pixtral |
Qwen/QwQ (1-2.5) (Code/Math/MoE) | 0.5B/1.5B/3B/7B/14B/32B/72B/110B | qwen |
Qwen2-Audio | 7B | qwen2_audio |
Qwen2-VL/Qwen2.5-VL/QVQ | 2B/3B/7B/72B | qwen2_vl |
Skywork o1 | 8B | skywork_o1 |
StarCoder 2 | 3B/7B/15B | - |
TeleChat2 | 3B/7B/35B/115B | telechat2 |
XVERSE | 7B/13B/65B | xverse |
Yi/Yi-1.5 (Code) | 1.5B/6B/9B/34B | yi |
Yi-VL | 6B/34B | yi_vl |
Yuan 2 | 2B/51B/102B | yuan |
训练准备
支持多种训练方法,包括预训练、指令监督微调、奖励模型训练等,且每种方法都支持全参数训练、部分参数训练、LoRA 和 QLoRA。
数据集
提供丰富的预训练数据集和指令微调数据集,如 Wiki Demo、RefinedWeb、Stanford Alpaca、Glaive Function Calling V2、BELLE 系列等,满足不同任务需求。
软硬件依赖
软件依赖
必需项 | 至少 | 推荐 |
---|---|---|
python | 3.9 | 3.10 |
torch | 1.13.1 | 2.5.1 |
transformers | 4.41.2 | 4.49.0 |
datasets | 2.16.0 | 3.2.0 |
accelerate | 0.34.0 | 1.2.1 |
peft | 0.11.1 | 0.12.0 |
trl | 0.8.6 | 0.9.6 |
可选项 | 至少 | 推荐 |
---|---|---|
CUDA | 11.6 | 12.2 |
deepspeed | 0.10.0 | 0.16.2 |
bitsandbytes | 0.39.0 | 0.43.1 |
vllm | 0.4.3 | 0.7.3 |
flash-attn | 2.3.0 | 2.7.2 |
硬件依赖
根据不同精度和模型规模,对硬件要求有所不同。例如,对于 4 比特 QLoRA 微调,7B 模型需要约 6GB 显存,13B 模型需要约 12GB 显存。
应用场景
LLaMA-Factory 可广泛应用于多种领域,如广告文案生成、多轮对话系统、工具调用智能体、图像理解与分析、视频内容识别、语音指令理解等,为各行业提供强大的语言模型微调解决方案。
如何系统的去学习大模型LLM ?
大模型时代,火爆出圈的LLM大模型让程序员们开始重新评估自己的本领。 “AI会取代那些行业
?”“谁的饭碗又将不保了?
”等问题热议不断。
事实上,抢你饭碗的不是AI,而是会利用AI的人。
继科大讯飞、阿里、华为
等巨头公司发布AI产品后,很多中小企业也陆续进场!超高年薪,挖掘AI大模型人才! 如今大厂老板们,也更倾向于会AI的人,普通程序员,还有应对的机会吗?
与其焦虑……
不如成为「掌握AI工具的技术人
」,毕竟AI时代,谁先尝试,谁就能占得先机!
但是LLM相关的内容很多,现在网上的老课程老教材关于LLM又太少。所以现在小白入门就只能靠自学,学习成本和门槛很高。
基于此,我用做产品的心态来打磨这份大模型教程,深挖痛点并持续修改了近70次后,终于把整个AI大模型的学习门槛,降到了最低!
在这个版本当中:
第一您不需要具备任何算法和数学的基础
第二不要求准备高配置的电脑
第三不必懂Python等任何编程语言
您只需要听我讲,跟着我做即可,为了让学习的道路变得更简单,这份大模型教程已经给大家整理并打包,现在将这份 LLM大模型资料
分享出来:包括LLM大模型书籍、640套大模型行业报告、LLM大模型学习视频、LLM大模型学习路线、开源大模型学习教程
等, 😝有需要的小伙伴,可以 扫描下方二维码领取🆓↓↓↓
一、LLM大模型经典书籍
AI大模型已经成为了当今科技领域的一大热点,那以下这些大模型书籍就是非常不错的学习资源。
二、640套LLM大模型报告合集
这套包含640份报告的合集,涵盖了大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。(几乎涵盖所有行业)
三、LLM大模型系列视频教程
四、LLM大模型开源教程(LLaLA/Meta/chatglm/chatgpt)
五、AI产品经理大模型教程
LLM大模型学习路线 ↓
阶段1:AI大模型时代的基础理解
-
目标:了解AI大模型的基本概念、发展历程和核心原理。
-
内容:
- L1.1 人工智能简述与大模型起源
- L1.2 大模型与通用人工智能
- L1.3 GPT模型的发展历程
- L1.4 模型工程
- L1.4.1 知识大模型
- L1.4.2 生产大模型
- L1.4.3 模型工程方法论
- L1.4.4 模型工程实践
- L1.5 GPT应用案例
阶段2:AI大模型API应用开发工程
-
目标:掌握AI大模型API的使用和开发,以及相关的编程技能。
-
内容:
- L2.1 API接口
- L2.1.1 OpenAI API接口
- L2.1.2 Python接口接入
- L2.1.3 BOT工具类框架
- L2.1.4 代码示例
- L2.2 Prompt框架
- L2.3 流水线工程
- L2.4 总结与展望
阶段3:AI大模型应用架构实践
-
目标:深入理解AI大模型的应用架构,并能够进行私有化部署。
-
内容:
- L3.1 Agent模型框架
- L3.2 MetaGPT
- L3.3 ChatGLM
- L3.4 LLAMA
- L3.5 其他大模型介绍
阶段4:AI大模型私有化部署
-
目标:掌握多种AI大模型的私有化部署,包括多模态和特定领域模型。
-
内容:
- L4.1 模型私有化部署概述
- L4.2 模型私有化部署的关键技术
- L4.3 模型私有化部署的实施步骤
- L4.4 模型私有化部署的应用场景
这份 LLM大模型资料
包括LLM大模型书籍、640套大模型行业报告、LLM大模型学习视频、LLM大模型学习路线、开源大模型学习教程
等, 😝有需要的小伙伴,可以 扫描下方二维码领取🆓↓↓↓