第四课笔记

1、finetune。两种finetune的范式。一是增量预训练。让基模学习到新知识,如某个垂直领域的常识(不需标注),训练数据为文章、书籍、代码等。二是指令跟随微调。使用场景是让模型学会对话模板,根据人类指令进行对话。(需标注)训练数据是高质量的对话、问答数据。

2、一条数据的一生。步骤1:收集原始数据:从用户对话中获取初始数据。

步骤2:转换为标准格式数据:将数据标准化,便于后续处理。

步骤3:添加对话模板:添加系统、用户和助手的标签,明确角色。

步骤4:Tokenized数据:将数据分词,转化为模型可处理的格式。

步骤5:添加Label:将输入数据与期望的输出配对,生成训练标签。

步骤6:开始训练:使用处理后的数据进行模型训练,优化模型参数。

3、微调方案:LoRA和QLoRA

基座模型不变,套不同的LoRA模型,不需要很大的显存开销。LLM的参数量主要集中在模型中的Linear,训练这些参数会耗费大量显存。LoRA通过在原本的Linear旁新增一个支路,包含两个连续的小Linear,新增的这两个支路通常叫Adapter。

4、xtuner。通过这三个步骤,用户可以方便地进行大语言模型的微调:

拷贝并准备配置文件。

修改配置文件以适应具体需求。

启动XTuner进行训练。

这种方式简化了微调流程,让用户能够快速上手并进行自定义训练。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值