一、Finetune简介
1.Finetune
Finetune是一种深度学习技术,也称为微调或fine-tuning。它的基本思想是使用预训练模型,然后在此基础上加上自己的数据来训练新的模型。这样,我们可以利用预训练模型中的知识和特征提取能力,而不需要从头开始训练模型。
在LLM的下游应用中,增量预训练和指令跟随是两种常用的微调模式。增量预训练微调的场景是让基座模型学习到一些新知识,如某个垂类领域的常识。训练数据包括文章、书籍、代码等。指令跟随微调的场景则是让模型学会对话模板,根据人类指令进行对话。训练数据是高质量的对话、问答数据。
2.LoRA & QLoRA
LoRA(LOW-RANK ADAPTATION)是一种对大型语言模型进行低秩适应的方法。这种方法通过在原本的Linear层旁边新增一个支路,包含两个连续的小Linear层,从而对模型进行微调。这个新增的支路通常被称为Adapter。使用LoRA方法可以大幅降低训练时的显存消耗,因为Adapter的参数量远小于原本的Linear层。
二、XTuner介绍
XTuner是一款强大的深度学习模型微调工具,它提供了多种微调算法和策略,旨在满足各种不同的场景和任务类型的需求。通过XTuner,用户可以轻松地对模型进行微调,提高模型的性能和准确性。
功能亮点
- 多种微调算法:XTuner支持多种微调算法,包括但不限于LlamaQWenBaiChuanChatGLM等。这些算法可以覆盖各类SFT场景任务类型,满足用户在不同场景下的需求。
- 适配多种开源生态:XTuner可以适配多种开源生态,包括Alpaca、Flash、Attention、QLoRA等。这使得用户可以在自己熟悉的开源生态中进行模型微调,提高工作效率。
- 自动优化加速:XTuner具有自动优化加速功能,可以自动进行显存优化和计算加速。这大大简化了用户的开发流程,让用户可以专注于模型微调本身,而无需关心复杂的底层优化细节。
三、8GB显卡玩转 LLM
Flash Attention和DeepSpeed ZeRO是两种深度学习模型优化技术,旨在提高训练速度和减少显存使用。
Flash Attention是一种新型的注意力算法,具有IO感知和快速、内存高效的特性。它通过减少GPU内存的读取和写入操作,实现了比PyTorch标准注意力算法更快2-4倍的运行速度,同时所需内存减少了5-20倍。这种算法尤其适合用于自然语言处理和图像分类等应用。
DeepSpeed ZeRO则是一种新的并行优化器,旨在大幅减少模型和数据并行所需的资源。它通过在分布式训练硬件中的可用设备之间划分各种模型训练状态,以减少每个GPU的内存消耗。ZeRO包括一系列强大的内存优化技术,可以有效训练具有数万亿参数的大型模型,例如GPT-2和Turing-NLG 17B。与训练大型模型的替代模型并行方法相比,ZeRO的一个关键吸引力在于不需要修改模型代码。