第4节笔记

文章探讨了为何需要对大语言模型进行微调,介绍了两种微调范式(增量预训练和指令跟随微调),并详细描述了一条数据在微调过程中的处理方式,重点讲解了xtuner中使用的LoRA和QLoRA技术。
摘要由CSDN通过智能技术生成

XTuner微调LLM:1.8B、多模态、Agent笔记

为什么要微调

很多大语言模型基本是为了普遍性的任务去做预训练的,叫做底座模型或者foundation模型;如果想利用它来完成特定的下游任务的话,就需要进行领域内的微调

微调的两种范式

  • 增量预训练微调
    • 使用场景:让底座模型学习新知识,例如某个垂直领域的常识
    • 训练数据:文章、书籍、代码等
  • 指令跟随微调
    • 使用场景:让模型学会对话模板,根据人类指令进行对话
    • 训练数据:高质量对话、问答数据

一条数据的一生

  • 标准格式数据 给问题和回答添加角色;下图可以看到数据的存储格式(xtuner)
    • system 模型的前置条件
    • user 问题部分
    • assistant 回答部分
  • 添加对话模板 是为了让LLM区分出System、User、Assitant;且不用的模型有不同的模板

除了添加System、User等,还需要对数据添加起始符和结束符,大部分模型都是使用作为起始符,作为结束符;并且计算loss

不同的增量预训练微调,数据中会有input和output,所以只需要对output部分计算loss

微调方案

xtuner中主要使用LoRAQLoRA(更低的显存消耗)

可以看下图所做的操作算是旁路分支,增加了两层Linear(可以参考残差加,突然和llama2串起来了),称为adapter
全参数微调 、 LoRA 、QLoRA区别

  • 全参数微调 加载模型和参数优化器

  • LoRA 加载模型和adapter的优化器

  • QLoRA 加载4bit量化后的模型和adapter的优化器

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值