书生浦语训练营第四次课笔记：XTuner 微调 LLM：1.8B、多模态、Agent

Kinno酱

已于 2024-05-11 19:36:22 修改

阅读量516

点赞数 4

分类专栏：大模型文章标签：笔记人工智能深度学习

于 2024-05-05 23:19:06 首次发布

本文链接：https://blog.csdn.net/qq_37397652/article/details/138167851

版权

大模型专栏收录该内容

21 篇文章 2 订阅

订阅专栏

文章目录

Finetune 简介
- 微调数据集
- 微调方案 LoRA & QLoRA
XTuner 介绍
8GB显存玩转LLM
InternLM2 1.8B 模型
多模态LLM微调
动手实战环节

课程文档：https://github.com/InternLM/Tutorial/blob/camp2/xtuner/readme.md

Finetune 简介

在这里插入图片描述
两种Finetune范式：增量预训练微调、指令跟随微调

微调数据集

在这里插入图片描述

上述是我们所期待模型回答的内容，在训练时损失的计算也是基于这个。
训练数据集看起来是这样，但是真正喂给模型的，是经过对话模板组装后的

下图中： <|System|>，|<User>|等对话模板

对话模板的作用：为了让大语言模型知道什么时候开始一段对话，什么时候结束一段对话。

微调方案 LoRA & QLoRA

LoRA: 通过在原本模型的Linear旁新增一个旁路分支Adapter（两个连续的小Linear层）。可以简单的理解LoRA文件就是两个层的参数保存下来的东西。

在这里插入图片描述
全参数微调：整个模型加载到显存中，所有模型参数的优化器也要加载到显存中。非常吃显存
LoRA微调：整个模型加载到显存中，对于参数优化器，只需要保存LoRA部分的参数优化器，大大减小了显存的占用。
QLoRA微调：把模型本身加载到显存中时，就已经是使用4bit量化的方式加载。从而由节省了显存开销。

XTuner 介绍

在这里插入图片描述

在不同量级的模型上，训练速度都是比LLaMa-Factory显著的更快

与LLaMa-Factory相比，同样是LLaMa2 70B超大参数量的模型，在不同的数据长度下，Xtuner的表现也是比LLaMa-Factory更好

XTunner对性能优化和显存优化做的更好！

8GB显存玩转LLM

在这里插入图片描述
有chat标记的模型是经过指令跟随微调后的模型，无chat就是基座模型

pack_to_max_length参数，比如说有一张24GB的显卡，如果不修改配置文件，只能占用8GB进行训练，20小时完成。这时就可以调整这个参数，使其占用满24GB
evaluation_inputs接受list，里面可以添加多个问题。
在这里插入图片描述