大模型之SFT提效

最新推荐文章于 2024-07-10 12:09:22 发布

谁怕平生太急

最新推荐文章于 2024-07-10 12:09:22 发布

阅读量293

点赞数 3

分类专栏：大模型文章标签：大模型

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/jinselizhi/article/details/139003006

版权

大模型专栏收录该内容

19 篇文章 0 订阅

订阅专栏

技巧v1：

1、数据择优：数据去重降低重复数据带来的计算量：基于正则匹配，minhash 等算法

2、减少训练steps：训练语料中多条 concat 为一条，使不同 batch 的语料 token 数目基本一致，从而降低 padding 对计算效率的影响

3、使用 bf16 数值类型代替 fp32 数值类型
与32位相比，采用BF16/FP16吞吐量可以翻倍，内存需求可以减半。
但是这两者精度上差异不一样，BF16 可表示的整数范围更广泛，但是尾数精度较小；FP16 表示整数范围较小，但是尾数精度较高。

4、测试训练效率最高的 DP/TP/PP 参数

5、freeze transformer 模型的底层参数

6、多轮对话拆成多条训练数据，对每个response都进行predict和loss计算

谁怕平生太急

关注

3
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
大模型之SFT提效

2、减少训练steps：训练语料中多条 concat 为一条，使不同 batch 的语料 token 数目基本一致，从而降低 padding 对计算效率的影响。但是这两者精度上差异不一样，BF16 可表示的整数范围更广泛，但是尾数精度较小；6、多轮对话拆成多条训练数据，对每个response都进行predict和loss计算。1、数据择优：数据去重降低重复数据带来的计算量：基于正则匹配，minhash 等算法。与32位相比，采用BF16/FP16吞吐量可以翻倍，内存需求可以减半。
复制链接

扫一扫

专栏目录

谁怕平生太急 CSDN认证博客专家 CSDN认证企业博客

码龄9年

160: 原创

2万+: 周排名

1万+: 总排名

15万+: 访问

: 等级

3108: 积分

376: 粉丝

531: 获赞

8: 评论

607: 收藏

私信

关注

热门文章

分类专栏

算法基础 9篇
中医 5篇
大模型 19篇
刷题 3篇
阅读 52篇
Agent 14篇
大神 2篇
生活 13篇
读书笔记 4篇
RAG 1篇
架构 1篇
数据 1篇
开发 27篇
读文章
百面机器学习的读书笔记 5篇

最新评论

最简单的网络
谁怕平生太急: import torch from torch.utils.data import DataLoader, Dataset import numpy as np # 自定义数据集 class CustomDataset(Dataset): def __init__(self, data, labels): self.data = data self.labels = labels def __len__(self): return len(self.data) def __getitem__(self, idx): sample = self.data[idx] label = self.labels[idx] return sample, label # 创建示例数据 data = np.random.random((100, 3, 32, 32)) labels = np.random.randint(0, 10, 100) # 创建数据集和数据加载器 dataset = CustomDataset(data, labels) dataloader = DataLoader(dataset, batch_size=8, shuffle=True, num_workers=2)
大模型之DPO
谁怕平生太急: DPO开始训练时，reference model和policy model都是同一个模型，只不过在训练过程中reference model不会更新权重。
多模态模型基础
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
Social IQA：Commonsense Reasoning about Social Interactions
ctotalk: thanks very good
几种预训练模型：bert-wwm,RoBERTa,RoBERTa-wwm
谁怕平生太急: https://github.com/brightmart/roberta_zh 这里能直接下载到google版本的呀

大家在看

最新文章

2024

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。