XTuner微调LLM:1.8B、多模态、Agent笔记
为什么要微调
很多大语言模型基本是为了普遍性的任务去做预训练的,叫做底座模型或者foundation模型;如果想利用它来完成特定的下游任务的话,就需要进行领域内的微调
微调的两种范式
- 增量预训练微调
- 使用场景:让底座模型学习新知识,例如某个垂直领域的常识
- 训练数据:文章、书籍、代码等
- 指令跟随微调
- 使用场景:让模型学会对话模板,根据人类指令进行对话
- 训练数据:高质量对话、问答数据
一条数据的一生
- 标准格式数据 给问题和回答添加角色;下图可以看到数据的存储格式(xtuner)
- system 模型的前置条件
- user 问题部分
- assistant 回答部分
- 添加对话模板 是为了让LLM区分出System、User、Assitant;且不用的模型有不同的模板
除了添加System、User等,还需要对数据添加起始符和结束符,大部分模型都是使用作为起始符,作为结束符;并且计算loss
不同的增量预训练微调,数据中会有input和output,所以只需要对output部分计算loss
微调方案
xtuner
中主要使用LoRA
和QLoRA
(更低的显存消耗)
可以看下图所做的操作算是旁路分支,增加了两层Linear
(可以参考残差加,突然和llama2
串起来了),称为adapter
全参数微调 、 LoRA 、QLoRA区别
-
全参数微调 加载模型和参数优化器
-
LoRA 加载模型和adapter的优化器
-
QLoRA 加载4bit量化后的模型和adapter的优化器