2024-01-06-AI 大模型全栈工程师 - Fine-tuning 集中答疑

本文探讨了GPU利用率低的原因、优化策略,包括多线程、I/O优化、数据处理方法(如BPE编码和Unigram模型)、高效数据准备(采集、标注、清洗和平衡),以及数据集构建的不同技巧。作者强调了模型训练的重要性,但对未来人工智能持谨慎态度。
摘要由CSDN通过智能技术生成

摘要

2024-01-06 周六 杭州 晴

课程内容

1. GPU 利用率

a. GPU 利用率较低的原因本质是由于CPU的计算或者I/O环节耗时过长,导致GPU利用率较低;

b. 数据加载与处理的耗时,采用多线程或者 I/O 多路复用技术提高 I/O 或 CPU 利用率;

c. 减少 I/O 操作的耗时
c.1 模型保存不宜太频繁
c.2 日志/性能指标采集不宜太频繁
c.3 使用高性能存储介质
c.4 数据不宜使用小数据块,会影响 I/O
c.5 分布式训练时要使用多线程和并行技术
c.6 多机训练要使用 GDRDMA 技术

d. 其他 CPU 耗时
d.1 主要是损失函数和 metrici 计算的复杂度

2. Batch 的拼接方式(PADDING 在哪边)

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

3. Tokenizer 怎么分词,怎么处理未登录时间

a. 双字节对(BPE)编码: 高频二元组合并,低频的分开,迭代至不能合并为止,ChatGpt 用的就是这个方法;
b. 基于与监督学习的 Unigram 模型切分

4. 数据准备与处理

a. 数据采集: 真实数据,web 抓取,人造数据
b. 数据标注: 专业标注公司,众包,主动学习,设计产品形态
c. 数据清洗: 去除不相关数据,去除冗余数据,去除误导数据
d. 样本均衡性: 尽量保证每个标签都有足够训练的样本,每个标签对应的数据尽量相等,数据不均衡策略

5. 数据集构建

a. 数据充分的情况: 切分训练集,验证集,测试集,采用随机采样保证数据分布一致
b. 数据的确太少: 交叉验证

总结

好好学习模型训练,在我的有生之年一定可以造出来通用人工智能体,但是我绝不会把自己的意识上传,人生三万天足以,1万天用于野蛮成长,1万天用于发展(拼搏向上),1万天学会下山(小隐隐于世)。

  • 8
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

流雨声

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值