大模型之SFT提效

技巧v1:

1、数据择优:数据去重降低重复数据带来的计算量:基于正则匹配,minhash 等算法

2、减少训练steps:训练语料中多条 concat 为一条,使不同 batch 的语料 token 数目基本一致,从而降低 padding 对计算效率的影响

3、使用 bf16 数值类型代替 fp32 数值类型
与32位相比,采用BF16/FP16吞吐量可以翻倍,内存需求可以减半。
但是这两者精度上差异不一样,BF16 可表示的整数范围更广泛,但是尾数精度较小;FP16 表示整数范围较小,但是尾数精度较高。

4、测试训练效率最高的 DP/TP/PP 参数

5、freeze transformer 模型的底层参数

6、多轮对话拆成多条训练数据,对每个response都进行predict和loss计算

SFT提效

  • 3
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值