20240325 大模型训练微调_sharegpt4o-CSDN博客

本文链接：https://blog.csdn.net/GAOSHIQI5322688/article/details/137022592

参考：

gpt4o微调数据集：

https://huggingface.co/datasets/OpenGVLab/ShareGPT-4o

Lora微调llama3:

https://zhuanlan.zhihu.com/p/700844670

数据预处理：

GitHub - modelscope/ms-swift: Use PEFT or Full-parameter to finetune 450+ LLMs (Qwen2.5, InternLM3, GLM4, Llama3.3, Mistral, Yi1.5, Baichuan2, DeepSeek-R1, ...) and 150+ MLLMs (Qwen2.5-VL, Qwen2-Audio, Llama3.2-Vision, Llava, InternVL2.5, MiniCPM-V-2.6, GLM4v, Xcomposer2.5, Yi-VL, DeepSeek-VL2, Phi3.5-Vision, GOT-OCR2, ...).

1.DeepSpeed 是一个由微软开发的开源深度学习优化库，专注于提升大规模模型训练的效率、速度以及资源利用率。它的核心目标在于解决训练超大规模神经网络模型时遇到的各种挑战，比如内存限制、计算效率低下、分布式训练复杂性等问题。

DeepSpeed 提供了一系列先进的技术特性，例如：

ZeRO（Zero Redundancy Optimizer）：这是一种创新的内存优化技术，通过消除模型参数、梯度和 optimizer 状态的冗余存储，使得模型可以在单个GPU或者分布式环境下训练数十亿甚至万亿参数级别的模型。
分布式训练优化：支持大规模的模型并行、数据并行和流水线并行策略，使得模型能在多GPU或多节点集群上高效训练。
推理优化：提供诸如Inference Optimization（如DeepSpeed-Chat提到的Inference-customized GeMM优化）、模型压缩和量化技术，以加快模型推理速度。
训练效率提升：包括梯度累积、自动混合精度计算（AMP）和动态精度缩放等功能，这些都能显著提升训练过程的效率。
用户友好：DeepSpeed还致力于简化使用流程，让普通开发者也能更容易地训练大型模型，例如开源DeepSpeedChat项目，允许用户训练类似ChatGPT这样的大规模语言模型。

综上所述，DeepSpeed已经成为训练和优化大规模深度学习模型的重要工具之一，在学术界和工业界都得到了广泛应用。

https://github.com/microsoft/DeepSpeed

2.大模型peft

PEFT（Parameter-Efficient Fine-Tuning）是一种针对大规模预训练模型（尤其是自然语言处理领域的模型）进行微调的技术手段，其主要目的是在保持模型性能的同时，尽可能减少需要微调的参数量，以节省计算资源、降低训练成本，并减轻过拟合的风险。

在自然语言处理任务中，预训练模型如BERT、GPT等通常拥有数以亿计的参数，直接对整个模型进行微调对于许多实际应用场景而言可能过于昂贵。PEFT技术则通过引入一些额外的参数层（如adapter、prefix-tuning、LoRA、prompt-tuning等组件）来适应新的任务，而不是微调所有的模型参数。

例如：

Adapter结构是在模型的不同层之间插入小型可学习的转换层，只训练这些适配器模块，而保留原始预训练模型权重不变。
Prefix-tuning则是给定一个固定长度的向量序列作为模型输入的一部分，这些前缀向量被训练以引导模型生成特定类型的结果。
LoRA（Low-Rank Adaptation）采用低秩矩阵分解方法来更新模型权重，这极大地减少了需要训练的参数数量。

通过这些策略，PEFT允许在有限的计算资源条件下，对预训练模型进行快速且高效的定制，使之适应新的具体任务，进而推动大模型在更多实际应用中的落地。Hugging Face等组织和社区为这类参数高效微调方法提供了相应的库和工具支持。

Lora降低参数量：

3.In-Context Learning

In-Context Learning（上下文中的学习）是一种学习范式，尤其在大规模预训练模型中展现得尤为突出，比如GPT系列模型。其工作原理主要依赖于模型的自我提示机制，即通过在输入中加入示例（提示），模型能够“回忆”起如何完成特定任务，而无需进行额外的训练。下面详细解释这一过程是如何发生的：

### 自我提示（Self-Prompting）

在In-Context Learning中，模型的输入不仅仅是待解决的问题本身，而是包含了几个示例问题及其解决方案。这些示例作为“提示”，帮助模型理解如何处理接下来的问题。例如，如果任务是分类，输入可能会包含几组标签和对应的文本示例；如果是问答任务，则可能包含几对问题和答案。

### 模型推理

当模型接收到这样的输入时，它实际上是在执行一种推理过程。基于在大量数据上预训练得到的模式识别和语言理解能力，模型能够从示例中“学习”或“回忆”起解决问题的策略。这个过程类似于人类通过观察示例来学习新技能。

### 解码阶段

在解码阶段，模型会生成输出，即对新问题的回答或解决方案。这一步骤依赖于模型对输入示例的理解以及它对语言和任务结构的内在知识。值得注意的是，模型并非通过调整权重来学习，而是通过在解码过程中动态地调整其注意力分布，以反映示例所暗示的模式。

### 泛化能力

In-Context Learning的一个关键特性是模型的泛化能力。理想情况下，即使对于从未见过的具体实例，模型也能够应用从示例中学习到的模式，从而解决新问题。这要求模型不仅能够记住具体的示例，更重要的是能够提取并理解示例背后的通用原则。

### 实现方式

在实际应用中，In-Context Learning的性能可能受到几个因素的影响，包括示例的数量、质量和多样性，以及模型本身的规模和架构。通常，更大的模型和更丰富的示例集合可以带来更好的性能。此外，研究人员也在探索如何优化示例的选择和排列，以提高模型的学习效率和效果。

总之，In-Context Learning是一种创新的学习方法，它允许模型在没有显式训练的情况下，通过利用输入中的示例来解决新任务，体现了预训练模型的强大适应性和灵活性。

Few-shot learning和微调确实在某种程度上涉及到数据量的区别，但两者之间还存在其他关键区别。下面对这两者进行简要的对比：

数据量：
- Few-shot Learning： 这是一种特殊情况，通常指的是在非常有限的样本数据上进行模型训练。这个限制是相对极端的，可能是几个、几十个，甚至更少。
- 微调： 微调通常涉及在相对较大的数据集上进行进一步训练。虽然比预训练时的大规模数据集要小，但通常会包含数百到数千个样本。
任务适应：
- Few-shot Learning： 由于数据量非常有限，Few-shot learning的任务是在这个小样本上实现模型的泛化能力，使其能够在新的、相似的任务上表现良好。
- 微调： 微调的任务是在新的数据集上进一步调整一个已经在大规模数据上预训练好的模型。微调旨在适应新任务的特定要求。
模型参数：
- Few-shot Learning： 由于数据量有限，可能需要使用更加灵活的模型架构，以便在小样本上进行学习。
- 微调： 在微调中，通常使用的是在大规模数据上预训练好的较大的模型，然后通过少量样本进行特定任务的调整。
一般性：
- Few-shot Learning： Few-shot learning更加侧重于对于小样本情况下的泛化能力，适用于数据稀缺的情形。
- 微调： 微调一般是指在更大规模的数据集上进行训练后，通过进一步训练适应特定任务，通常适用于相对较大的数据集。

总体而言，数据量是其中一个重要的区别，但Few-shot learning更加注重在非常小的数据集上实现泛化，而微调通常发生在相对较大的数据集上。

One-shot 学习是一种机器学习方法，它专注于从一个或极少数的样本中学习新类别，并能够对未见过的新样本进行准确分类。这种能力类似于人类在面对新的概念或物体时，仅需观察一次就能理解和记忆其特征。

在深度学习领域中，实现One-shot学习的关键在于构建能够快速适应和泛化到新类别的模型。以下是一些典型策略：

元学习（Meta-Learning）：
- 元学习模型通过训练一系列小规模任务（也称为“内集”任务），学会如何快速学习。在每个任务上，模型都尝试从少量样本中学习并做出预测。
- 例如，MAML（Model-Agnostic Meta-Learning）算法旨在找到一组初始化参数，使得在遇到新的小数据集时，只需用这些数据进行一小步梯度更新就能达到较好的性能。
原型网络（Prototypical Networks）：
- 原型网络利用支持向量机思想，将每个类别表示为特征空间中的一个原型（即该类别所有样本特征的平均值或其他形式的中心点）。
- 对于一个新的样本，计算它与各个类别原型之间的距离，并将其分配给最近的原型对应的类别。
匹配网络（Matching Networks）：
- 匹配网络结合了注意力机制，在测试阶段根据查询样本与存储在内存中的支持样本之间的相似性来进行类别预测。
- 它学习了一个嵌入函数和一个加权求和函数，能直接从单个示例中进行推理。
变分自编码器（Variational Autoencoder, VAE）和生成对抗网络（Generative Adversarial Networks, GANs）：
- 虽然不是严格意义上的one-shot学习方法，但这类模型可以用于生成或重建新样本，辅助one-shot学习过程。
- 例如，通过先验知识和生成技术生成足够的虚拟样本来增强模型对于新类别的理解。
关系网络（Relation Networks）：
- 关系网络通过学习一个通用的关系函数来衡量任意两个输入样本之间的关系，从而可以直接应用于one-shot和few-shot场景下的分类问题。

总的来说，one-shot学习的目标是让模型具备更强的归纳能力和泛化能力，能够在有限的监督信息下有效地推广到新的、未曾见过的类别上。

6.llava训练过程

LLava（Language and Vision-Aligned Visual Assistant）的训练过程涉及多阶段的多模态对齐和精调，使模型能够在视觉和文本输入的组合上进行推理和生成。LLava的训练通常基于LLM（例如LLaMA、GPT-3等）的框架，通过图像特征与文本对齐，实现图文交互能力。以下是主要的训练步骤：

1. 图像特征提取

使用预训练的视觉编码器（如CLIP、ViT）来处理图像输入。视觉编码器将图像转化为特征向量（图像嵌入），为后续多模态对齐提供图像信息。
图像特征嵌入在LLava中用于表示视觉信息，与文本特征一同输入至语言模型进行处理。

2. 多模态对齐训练

图文对比学习（Contrastive Learning）：将图像嵌入和文本嵌入映射到相同的特征空间，使用对比损失（contrastive loss）来最大化图像和匹配文本之间的相似度，最小化不匹配的图文对之间的相似度。
跨模态注意力机制：在多模态对齐时，加入跨模态注意力机制来捕捉图像和文本的相互关系，使模型能够在图像理解和文本生成时更好地融合视觉信息。

3. 语言模型微调（Language Model Fine-Tuning）

联合训练：将图像特征与文本特征结合，输入到预训练语言模型中，通过有监督学习来优化LLava的生成能力。这一步通常使用带有图文配对的训练集（例如问答、图像描述数据集），使模型学会生成与图像相关的自然语言输出。
损失函数：微调时，使用交叉熵损失函数评估生成的文本与目标文本之间的差异，以提高模型生成文本的准确性和流畅性。