01
一句话说清预训练与微调的本质区别
预训练的目标、采用的数据集、需要的GPU数量都不同。但如果要从深度学习训练本质说清区别,它是:
预训练采用随机初始化模型参数的方式,构造模型,然后通过大量的未打标签数据进行训练,学习语料的通用特征;而微调会从预训练模型中加载参数,保留了预训练过程中学到的通用特征,通过少量高质量的打标签语料来训练模型,以提高模型在特定任务上的能力和性能。
上文提到的参数包含:权重,偏置,Word Embeddings,Positional Encoding,注意力机制参数等。
02
展开说明
接下来,我们详细展开说明。
预训练(Pre-Training)
预训练的主要目标是通过大规模的无监督数据集(如文本语料库)来学习语言的基本结构和语义特征。预训练通常涉及以下步骤:
-
随机初始化权重:模型的参数,如权重和偏置在预训练开始时是随机初始化的。
-
大规模数据集:使用大量的无监督数据进行训练。
-
学习通用特征:模型通过优化损失函数(如语言模型的交叉熵损失)来学习语言的通用特征。
预训练的关键点
-
随机初始化:模型的所有参数(权重、偏置等)在预训练开始时是随机的。
-
大规模数据:使用大规模的无监督数据集进行训练。
-
通用特征:学习语言的基本结构和语义特征,为后续任务提供一个良好的起点。
微调(Fine-Tuning)
微调的主要目标是通过特定任务的数据集来优化模型在该任务上的性能。微调通常涉及以下步骤:
-
加载预训练权重:模型的权重和偏置从预训练模型中加载。
-
特定任务数据:使用特定任务的数据集进行训练。
-
优化特定任务性能:模型通过优化损失函数来调整参数,以提高在特定任务上的性能。
微调的关键点
-
加载预训练权重:模型的参数从预训练模型中加载,保留了预训练过程中学到的通用特征。
-
特定任务数据:使用特定任务的数据集进行训练。
-
任务优化:进一步调整模型参数,以优化在特定任务上的性能。
总结:
-
训练效率:预训练通常需要大量的计算资源和时间,因为它需要在大规模数据集上训练模型的所有参数。而微调则相对高效,因为它在预训练模型的基础上进行,只需要进一步优化特定任务的数据。
-
模型性能:预训练模型已经学习了语言的通用特征,这使得微调能够更快地收敛,并且在特定任务上表现更好。直接从随机初始化开始训练特定任务模型,通常需要更多的数据和时间,且性能可能不如预训练+微调的方式。
-
应用场景:预训练模型可以作为通用的基础模型,适用于多种下游任务。通过微调,可以快速适应不同的任务需求,而不需要从头开始训练模型。
03
预训练代码展示
我们以GPT2为例
https://huggingface.co/docs/transformers/v4.44.0/en/model_doc/gpt2#transformers.GPT2LMHeadModel
如果要对GPT-2进行预训练加载,需要使用到GPT2LMHeadModel和GPT2Config这两个类。
由于模型很小,单卡H100就能预训练:
训练后的模型可以进行推理验证。
04
微调代码展示
我们微调一个模型,通常指的是Supervised Fine Tuning。SFT又分为Parameter-Efficient Fine-Tuning (PEFT) 和 Full Fine Tuning。
PEFT实现中,目前像LoRA,QLoRA,GA-LoRA都比较流行。
我们先看Full Fine Tuning加载模型的方式,调用的是AutoModelForCausalLM.from_pretrained的类,它会获取预训练模型的参数。
model = AutoModelForCausalLM.from_pretrained(
model_name, attn_implementation=attn_implementation, device_map={"": 0}
)
model.gradient_checkpointing_enable(gradient_checkpointing_kwargs={'use_reentrant':True})
关于完整的预训练代码,参考repo中:
https://github.com/davidsajare/david-share.git
下的:DeepLearning/SmolLM-Full-Fine-Tuning
接下来我们看微调、LoRA和QLoRA在代码实现上的区别。
在加载模型和训练参数方面,全微调、LoRA和QLoRA有以下区别:
加载模型
- 全微调
-
直接加载完整的模型进行训练。
-
使用
AutoModelForCausalLM.from_pretrained
加载模型。
- LoRA
-
加载模型后,使用LoRA配置进行参数高效微调。
-
使用
peft
库中的LoraConfig
来配置LoRA参数。 -
目标模块通常是特定的投影层,如
k_proj
、q_proj
等。
- QLoRA
-
在LoRA的基础上,结合量化技术(如4-bit量化)以减少内存占用。
-
使用
BitsAndBytesConfig
进行量化配置。 -
需要调用
prepare_model_for_kbit_training
来准备模型。
训练参数
- 全微调
-
训练所有模型参数。
-
通常需要更大的内存和计算资源。
-
使用标准的优化器如
adamw_torch
。
- LoRA
-
只训练LoRA插入的低秩矩阵,其他参数保持不变。
-
训练速度较快,内存占用较少。
-
使用
paged_adamw_8bit
等优化器。
- QLoRA
-
结合LoRA和量化技术,进一步减少内存占用。
-
适合在资源有限的环境下进行大模型微调。
-
同样使用
paged_adamw_8bit
优化器。
需要指出的是,在进行LoRA或者QLoRA微调时,我们可以指定训练的模块,如:
详见:https://github.com/davidsajare/david-share/tree/master/Deep-Learning/Continue-Pre-training
05
关于训练的分布式实现
毫无疑问,大语言模型的预训练需要多级多卡。这时候就需要分布式训练。
目前预训练的分布式底层可以通过调用NCCL实现。上层工具可以用Megatron、DeepSpeed、HF的accelerate库(目前支持FSDP)。这些工具较好的实现了DP/PP/TP。
Megatron与DeepSpeed结合实现预训练详见:
https://github.com/davidsajare/david-share/tree/master/Deep-Learning/Megatron%2BDeepspeed-Pretrain-GPT2
Deepspeed实现SFT的示例详见:
https://github.com/davidsajare/david-share/tree/master/Multimodal-Models/DeepSpeed-FT-Stable-Diffusion
目前一些开源的微调工具如Axolotl,也能直接对接DeepSpeed,示例详见:
https://github.com/davidsajare/david-share/tree/master/Deep-Learning/Fine-tuning-with-Axolotl
使用accelerate
的FSDP时,可以结合其他并行策略来实现更高效的训练。
- Data Parallelism (DP):
- FSDP本身就是一种数据并行策略,通过对模型参数进行分片来实现。
- Pipeline Parallelism (PP):
- 可以将模型分成多个阶段,每个阶段在不同的设备上运行。需要手动划分模型并管理数据流。
- Tensor Parallelism (TP):
-
将单个层的计算分布在多个设备上。需要对模型的计算图进行修改。
要结合这些策略,通常需要对模型和训练脚本进行较多的自定义和调整。
accelerate
提供了一些工具来简化这些过程,但具体实现可能需要结合PyTorch的其他库(如torch.distributed
)和自定义代码。
accelerate的FSDP的示例详见:
https://github.com/davidsajare/david-share/tree/master/Deep-Learning/Llama-3.1-70B-FSDP-Fine-Tuning
如何学习AI大模型?
大模型时代,火爆出圈的LLM大模型让程序员们开始重新评估自己的本领。 “AI会取代那些行业
?”“谁的饭碗又将不保了?
”等问题热议不断。
不如成为「掌握AI工具的技术人
」,毕竟AI时代,谁先尝试,谁就能占得先机!
想正式转到一些新兴的 AI 行业,不仅需要系统的学习AI大模型。同时也要跟已有的技能结合,辅助编程提效,或上手实操应用,增加自己的职场竞争力。
但是LLM相关的内容很多,现在网上的老课程老教材关于LLM又太少。所以现在小白入门就只能靠自学,学习成本和门槛很高
那么针对所有自学遇到困难的同学们,我帮大家系统梳理大模型学习脉络,将这份 LLM大模型资料
分享出来:包括LLM大模型书籍、640套大模型行业报告、LLM大模型学习视频、LLM大模型学习路线、开源大模型学习教程
等, 😝有需要的小伙伴,可以 扫描下方二维码领取🆓↓↓↓
👉[CSDN大礼包🎁:全网最全《LLM大模型入门+进阶学习资源包》免费分享(安全链接,放心点击)]()👈
学习路线
第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;
第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;
第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;
第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;
第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;
第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;
第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。
👉学会后的收获:👈
• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;
• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;
• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;
• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。
1.AI大模型学习路线图
2.100套AI大模型商业化落地方案
3.100集大模型视频教程
4.200本大模型PDF书籍
5.LLM面试题合集
6.AI产品经理资源合集
👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓