转载链接:https://www.bilibili.com/video/BV1tQ4y1j7KF/?spm_id_from=333.337.search-card.all.click&vd_source=9db31b6f3a0e1a72d163c23959753f5c
大模型高效微调框架LLaMA-Factory技术原理解析 - 郑耀威先生
大模型高效微调框架LLaMA-Factory的技术原理。该框架可以实现低资源的显卡算力弱的同学使用大模型进行微调和调优工作。视频中从模型、优化器、激活值等角度出发,分析了训练大模型所需的显存占用情况,并介绍了BF16和F16两种新的精度来训练模型,从而降低显存占用。该框架在Github上获得了超过7000个Star,受到很多大厂的欢迎和使用。
- 拉玛factory高效训练框架,该框架可以实现低资源的大模型微调和调优工作。
- 01:37
- 一个低资源的框架,可以高效地进行大模型微调和调优。
- 03:29
- 训练一个大模型需要耗费大量的成本和算力资源,因此需要考虑训练的成本和效率。
- 06:58
- 优化器的使用:优化器可以帮助我们更好地优化模型的参数,以达到更好的性能。
- 在训练模型时,不同变量和参数对显存的影响,以及采用混合精度和量化等优化方法。
- 07:06
- 优化器参数和显存问题
- 09:32
- 浮点数表示范围缩小和训练稳定性
- 11:38
- 混合精度训练和显存减少
- 模型量化和低质分解的方法,可以减少模型的显存占用,提高计算效率。
- 11:59
- 模型参数的量化和分块矩阵表示
- 15:00
- 低质分解和参数优化
- 17:18
- 优化器高效微调框架LAURA
- 通过量化和LOL方法优化模型参数,结合grit gradientcheckpoint技术优化激活值,降低显存占用量。
- 17:29
- 优化显存占用量:介绍了如何通过优化显存占用量来提高GPU的使用效率。
- 21:34
- 计算梯度的方法:解释了计算梯度的方法,以及如何只保存一个激活值来优化显存占用量。
- 21:58
- 优化算法:介绍了优化算法中使用的一些技巧,如通过设计loss函数来提高优化效率。模型压缩的方法,包括检查点、梯度累积等技术,并介绍了如何使用拉马工厂高效训练大模型。
- 22:20
- 优化神经网络训练的显存和时间复杂度
- 25:04
- 模型训练优化方法和开源框架
- 27:00
- 大模型高效训练框架
- 一个开源框架,可以帮助用户在有限的算力和数据下,有效地微调大模型,实现更好的表现。
- 27:30
- 拉玛工厂:在有限算力下微调大模型
- 31:46
- 开源框架的实现原理
- 32:01
- 拉玛-工厂的三个主要层次
- 一个算法层和应用层的框架,包括模型和数据的适配、训练模式和评估方法等。
- 32:13
- 算法层和应用层:框架的基础层实现了模型和数据的适配,包括各种模型和数据接口。
- 35:45
- 模型训练方法:介绍了模型训练方法,包括全部参数调优、局部参数调优和Lua调用方式。
- 36:48
- 模型性能优化:介绍了模型性能优化方法,包括flash3d和LoraNer等。
- 注意力机制的高效实现flash attention,可提高训练速度和降低显存占用,并介绍了量化模型训练的方法。
- 37:13
- 硬件高效实现的训练加速方法
- 41:01
- 稳定性优化:模型训练中的不同方式优化
- 41:41
- 微调方法:使用预训练模型进行微调的方法·在模型训练和调优中,选择合适的精度和参数表示范围,以及在数据加载中优化数据兼容性。
- 41:50
- 不同电路进行微调时参数表示范围的选择
- 44:40
- 数据加载过程中的优化和标记方法
- 46:27
- 标记数据和模型输入的方式
- 在模型微调过程中,使用不同模型模板和数据优化方式,以提高模型性能和效率。
- 46:50
- 模型微调过程中的对话模板选择和训练样本构建
- 48:36
- 自监督训练和数据利用率优化
- 51:42
- 分布式训练和超参数优化
- 一种分布式打包技术和模型优化方法,可以在多机多卡的环境下实现对话模型训练。
- 51:54
- 分布式训练算法:介绍一种基于自监督训练和多卡多机器分布式训练的算法。
- 52:50
- 模型优化:介绍了通过参数共享和适配器优化模型的方法,以及如何将训练过程缩小到14GB内存。
- 55:30
- 模型能力丢失:讲解了在训练过程中可能会丢失原有模型能力的现象,并提出了通过混合模型参数来解决该问题的方法。
- 如何通过混合法律和其他领域通用知识来避免模型参数跳出最优值的问题。
- 56:58
- 法律大模型的训练:在训练法律大模型时,需要提供法律知识和通用领域知识的数据混合。
- 58:51
- 模型版本适配:通过修改代码实现,可以适配新的模型和参数。
- 01:01:32
- 模型加载和推理:介绍了如何加载模型和进行推理,以及常用的推理方法。目前研究集中在模型训练阶段,对于推理和实现细节问题还需进一步研究。
- 01:02:17
- 模型训练和推理的研究尚不多
- 01:02:39
- 使用LaMA进行微调所需的显存最低为2GB01:03:0870B模型放在单张50GB容量的显卡中需要使用量化技术