一句话说清预训练和微调的本质区别

01

一句话说清预训练与微调的本质区别

预训练的目标、采用的数据集、需要的GPU数量都不同。但如果要从深度学习训练本质说清区别,它是:

预训练采用随机初始化模型参数的方式,构造模型,然后通过大量的未打标签数据进行训练,学习语料的通用特征;而微调会从预训练模型中加载参数,保留了预训练过程中学到的通用特征,通过少量高质量的打标签语料来训练模型,以提高模型在特定任务上的能力和性能。

上文提到的参数包含:权重,偏置,Word Embeddings,Positional Encoding,注意力机制参数等。

02

展开说明

接下来,我们详细展开说明。

预训练(Pre-Training)

预训练的主要目标是通过大规模的无监督数据集(如文本语料库)来学习语言的基本结构和语义特征。预训练通常涉及以下步骤:

  1. 随机初始化权重:模型的参数,如权重和偏置在预训练开始时是随机初始化的。

  2. 大规模数据集:使用大量的无监督数据进行训练。

  3. 学习通用特征:模型通过优化损失函数(如语言模型的交叉熵损失)来学习语言的通用特征。

预训练的关键点
  • 随机初始化:模型的所有参数(权重、偏置等)在预训练开始时是随机的。

  • 大规模数据:使用大规模的无监督数据集进行训练。

  • 通用特征:学习语言的基本结构和语义特征,为后续任务提供一个良好的起点。

微调(Fine-Tuning)

微调的主要目标是通过特定任务的数据集来优化模型在该任务上的性能。微调通常涉及以下步骤:

  1. 加载预训练权重:模型的权重和偏置从预训练模型中加载。

  2. 特定任务数据:使用特定任务的数据集进行训练。

  3. 优化特定任务性能:模型通过优化损失函数来调整参数,以提高在特定任务上的性能。

微调的关键点
  • 加载预训练权重:模型的参数从预训练模型中加载,保留了预训练过程中学到的通用特征。

  • 特定任务数据:使用特定任务的数据集进行训练。

  • 任务优化:进一步调整模型参数,以优化在特定任务上的性能。

总结:

  1. 训练效率:预训练通常需要大量的计算资源和时间,因为它需要在大规模数据集上训练模型的所有参数。而微调则相对高效,因为它在预训练模型的基础上进行,只需要进一步优化特定任务的数据。

  2. 模型性能:预训练模型已经学习了语言的通用特征,这使得微调能够更快地收敛,并且在特定任务上表现更好。直接从随机初始化开始训练特定任务模型,通常需要更多的数据和时间,且性能可能不如预训练+微调的方式。

  3. 应用场景:预训练模型可以作为通用的基础模型,适用于多种下游任务。通过微调,可以快速适应不同的任务需求,而不需要从头开始训练模型。

03

预训练代码展示

我们以GPT2为例

https://huggingface.co/docs/transformers/v4.44.0/en/model_doc/gpt2#transformers.GPT2LMHeadModel

如果要对GPT-2进行预训练加载,需要使用到GPT2LMHeadModel和GPT2Config这两个类。

由于模型很小,单卡H100就能预训练:

训练后的模型可以进行推理验证。

04

微调代码展示

我们微调一个模型,通常指的是Supervised Fine Tuning。SFT又分为Parameter-Efficient Fine-Tuning (PEFT) 和 Full Fine Tuning。

PEFT实现中,目前像LoRA,QLoRA,GA-LoRA都比较流行。

我们先看Full Fine Tuning加载模型的方式,调用的是AutoModelForCausalLM.from_pretrained的类,它会获取预训练模型的参数。

model = AutoModelForCausalLM.from_pretrained(
                      model_name, attn_implementation=attn_implementation, device_map={"": 0}
)
model.gradient_checkpointing_enable(gradient_checkpointing_kwargs={'use_reentrant':True})

关于完整的预训练代码,参考repo中:

https://github.com/davidsajare/david-share.git

下的:DeepLearning/SmolLM-Full-Fine-Tuning

接下来我们看微调、LoRA和QLoRA在代码实现上的区别。

在加载模型和训练参数方面,全微调、LoRA和QLoRA有以下区别:

加载模型

  1. 全微调
  • 直接加载完整的模型进行训练。

  • 使用AutoModelForCausalLM.from_pretrained加载模型。

  1. LoRA
  • 加载模型后,使用LoRA配置进行参数高效微调。

  • 使用peft库中的LoraConfig来配置LoRA参数。

  • 目标模块通常是特定的投影层,如k_projq_proj等。

  1. QLoRA
  • 在LoRA的基础上,结合量化技术(如4-bit量化)以减少内存占用。

  • 使用BitsAndBytesConfig进行量化配置。

  • 需要调用prepare_model_for_kbit_training来准备模型。

训练参数

  1. 全微调
  • 训练所有模型参数。

  • 通常需要更大的内存和计算资源。

  • 使用标准的优化器如adamw_torch

  1. LoRA
  • 只训练LoRA插入的低秩矩阵,其他参数保持不变。

  • 训练速度较快,内存占用较少。

  • 使用paged_adamw_8bit等优化器。

  1. QLoRA
  • 结合LoRA和量化技术,进一步减少内存占用。

  • 适合在资源有限的环境下进行大模型微调。

  • 同样使用paged_adamw_8bit优化器。

需要指出的是,在进行LoRA或者QLoRA微调时,我们可以指定训练的模块,如:

详见:https://github.com/davidsajare/david-share/tree/master/Deep-Learning/Continue-Pre-training

05

关于训练的分布式实现

毫无疑问,大语言模型的预训练需要多级多卡。这时候就需要分布式训练。

目前预训练的分布式底层可以通过调用NCCL实现。上层工具可以用Megatron、DeepSpeed、HF的accelerate库(目前支持FSDP)。这些工具较好的实现了DP/PP/TP。

Megatron与DeepSpeed结合实现预训练详见:

https://github.com/davidsajare/david-share/tree/master/Deep-Learning/Megatron%2BDeepspeed-Pretrain-GPT2

Deepspeed实现SFT的示例详见:

https://github.com/davidsajare/david-share/tree/master/Multimodal-Models/DeepSpeed-FT-Stable-Diffusion

目前一些开源的微调工具如Axolotl,也能直接对接DeepSpeed,示例详见:

https://github.com/davidsajare/david-share/tree/master/Deep-Learning/Fine-tuning-with-Axolotl

使用accelerate的FSDP时,可以结合其他并行策略来实现更高效的训练。

  1. Data Parallelism (DP):
  • FSDP本身就是一种数据并行策略,通过对模型参数进行分片来实现。
  1. Pipeline Parallelism (PP):
  • 可以将模型分成多个阶段,每个阶段在不同的设备上运行。需要手动划分模型并管理数据流。
  1. Tensor Parallelism (TP):
  • 将单个层的计算分布在多个设备上。需要对模型的计算图进行修改。

    要结合这些策略,通常需要对模型和训练脚本进行较多的自定义和调整。accelerate提供了一些工具来简化这些过程,但具体实现可能需要结合PyTorch的其他库(如

    torch.distributed)和自定义代码。

accelerate的FSDP的示例详见:

https://github.com/davidsajare/david-share/tree/master/Deep-Learning/Llama-3.1-70B-FSDP-Fine-Tuning

如何学习AI大模型?

大模型时代,火爆出圈的LLM大模型让程序员们开始重新评估自己的本领。 “AI会取代那些行业?”“谁的饭碗又将不保了?”等问题热议不断。

不如成为「掌握AI工具的技术人」,毕竟AI时代,谁先尝试,谁就能占得先机!

想正式转到一些新兴的 AI 行业,不仅需要系统的学习AI大模型。同时也要跟已有的技能结合,辅助编程提效,或上手实操应用,增加自己的职场竞争力。

但是LLM相关的内容很多,现在网上的老课程老教材关于LLM又太少。所以现在小白入门就只能靠自学,学习成本和门槛很高

那么针对所有自学遇到困难的同学们,我帮大家系统梳理大模型学习脉络,将这份 LLM大模型资料 分享出来:包括LLM大模型书籍、640套大模型行业报告、LLM大模型学习视频、LLM大模型学习路线、开源大模型学习教程等, 😝有需要的小伙伴,可以 扫描下方二维码领取🆓↓↓↓

👉[CSDN大礼包🎁:全网最全《LLM大模型入门+进阶学习资源包》免费分享(安全链接,放心点击)]()👈

学习路线

在这里插入图片描述

第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;

第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;

第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;

第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;

第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;

第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;

第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。

在这里插入图片描述

👉学会后的收获:👈

• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;

• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;

• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;

• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。

在这里插入图片描述

1.AI大模型学习路线图
2.100套AI大模型商业化落地方案
3.100集大模型视频教程
4.200本大模型PDF书籍
5.LLM面试题合集
6.AI产品经理资源合集

👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

BERT(Bidirectional Encoder Representations from Transformers)是一种预训练语言模型,可以用于各种自然语言处理任务的微调。下面是BERT预训练微调的简要介绍: BERT预训练: BERT的预训练是指在大规模文本上训练出一个通用的语言模型,然后将这个模型微调到各种具体的NLP任务上。预训练BERT包含两个阶段:Masked Language Model(MLM)和Next Sentence Prediction(NSP)。在MLM阶段,部分输入单词被随机替换成[Mask]标记,模型需要预测这些[Mask]标记对应的原始单词;在NSP阶段,模型需要判断两个句子是否是连续的。BERT的预训练代码可以使用谷歌官方实现的TensorFlow版本或者Hugging Face开发的PyTorch版本。 BERT微调: BERT微调是指在任务特定的数据集上微调预训练好的BERT模型微调步骤包括数据处理、模型配置、模型微调模型评估。在数据处理阶段,需要将任务特定数据集转换成适合BERT输入的格式;在模型配置阶段,需要根据任务需求选择合适的模型结构、超参数和优化器;在模型微调阶段,需要用微调数据集对模型进行训练;在模型评估阶段,需要使用测试集对微调后的模型进行评估。BERT微调代码可以使用各种框架实现,如PyTorch、TensorFlow等。 如果您想学习更多关于BERT预训练微调的内容,我建议您查看谷歌官方论文和Hugging Face官方文档。此外,您也可以在GitHub上找到各种不同的BERT实现和教程。如果您需要具体的代码示例,可以告诉我您所使用的框架和任务类型,我可以为您提供相关参考。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值