大语言模型微调技术要点之硬件准备和数据准备

一、硬件准备

(一)计算资源

1、GPU/TPU规格选择

CUDA核心数,浮点运算能力
并行处理能力 (如Tensor Core)

2、分布式计算资源
 

数据并行、模型并行、流水线并行
内存需求
最小批量大小 vs. GPU内存 (Batch Size * 单样本内存)

3、内存需求

最小批量大小 vs. GPU内存 (Batch Size * 单样本内存)

(二)存储资源

1、数据存储
 

I/O吞吐量,持久存储 vs. 临时存储

I/O吞吐量应至少与网络带宽相匹配,以避免成为瓶颈。例如,1GB/s的网络带宽意味着存储系统至少也要提供这样的吞吐量。

2、模型存储
 

检查点频率与存储策略(Checkpoints),检查点存储至少需要能容纳完整模型参数的空间,加上额外的空间存储优化器的状态(比如Adam需要两倍于模型参数大小的空间)。

3、高速缓存

缓存带宽与容量,在分布式训练中,理论上的网络带宽需求可以使用 
Size of Data per Batch×Number of Workers 来估算。

二、数据准备

(一)数据集选择

1、领域相关性

 数据代表性(Representativeness)

2、数据量大小

数据规模与模型容量的关系。 一个经验法则是,模型的参数数量应该小于可用训练样本的数量。例如,1亿参数的模型最好有超过1亿的训练样本。

3、数据质量评估

错误分析、一致性检查

(二)数据清洗

1、去重

哈希表、SimHash等去重技术,对于大型文本数据集,一个常见的经验值是,去重可能会移除大约5-10%的数据

2、去噪

基于规则和统计的噪声识别

3、格式统一
 

数据规范化处理

(三)数据标注

1、自动化标注工具

弱监督学习、半监督学习技术,许多调用gpt4的API进行自动数据表中,比如某节被openai警告大概率是这个原因

2、人工标注指南

明确的标注指南与一致性检查

3、标注质量控制

Fleiss's kappa等一致性度量,一致性度量,如Fleiss's kappa值,通常在0.61-0.8表示合理的一致性,而超过0.8则表示非常好的一致性。

(四)数据增强

1、同义词替换

词向量空间中的近义词发现

2、句子重构

句法树变换技术

3、数据插值

生成对抗网络(GANs)等生成技术

  • 7
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

garyyu2200

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值