2024-01-06-AI 大模型全栈工程师 - Fine-tuning 集中答疑

最新推荐文章于 2024-08-25 09:30:17 发布

流雨声

最新推荐文章于 2024-08-25 09:30:17 发布

阅读量271

点赞数 8

文章标签：人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_36532747/article/details/135977327

版权

本文探讨了GPU利用率低的原因、优化策略，包括多线程、I/O优化、数据处理方法（如BPE编码和Unigram模型）、高效数据准备（采集、标注、清洗和平衡），以及数据集构建的不同技巧。作者强调了模型训练的重要性，但对未来人工智能持谨慎态度。

摘要由CSDN通过智能技术生成

摘要

2024-01-06 周六杭州晴

课程内容

1. GPU 利用率

a. GPU 利用率较低的原因本质是由于CPU的计算或者I/O环节耗时过长，导致GPU利用率较低；

b. 数据加载与处理的耗时，采用多线程或者 I/O 多路复用技术提高 I/O 或 CPU 利用率；

c. 减少 I/O 操作的耗时
c.1 模型保存不宜太频繁
c.2 日志/性能指标采集不宜太频繁
c.3 使用高性能存储介质
c.4 数据不宜使用小数据块，会影响 I/O
c.5 分布式训练时要使用多线程和并行技术
c.6 多机训练要使用 GDRDMA 技术

d. 其他 CPU 耗时
d.1 主要是损失函数和 metrici 计算的复杂度

2. Batch 的拼接方式(PADDING 在哪边)

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

3. Tokenizer 怎么分词，怎么处理未登录时间

a. 双字节对（BPE）编码：高频二元组合并，低频的分开，迭代至不能合并为止，ChatGpt 用的就是这个方法；
b. 基于与监督学习的 Unigram 模型切分

4. 数据准备与处理

a. 数据采集: 真实数据，web 抓取，人造数据
b. 数据标注: 专业标注公司，众包，主动学习，设计产品形态
c. 数据清洗: 去除不相关数据，去除冗余数据，去除误导数据
d. 样本均衡性: 尽量保证每个标签都有足够训练的样本，每个标签对应的数据尽量相等，数据不均衡策略

5. 数据集构建

a. 数据充分的情况: 切分训练集，验证集，测试集，采用随机采样保证数据分布一致
b. 数据的确太少: 交叉验证

总结

好好学习模型训练，在我的有生之年一定可以造出来通用人工智能体，但是我绝不会把自己的意识上传，人生三万天足以，1万天用于野蛮成长，1万天用于发展（拼搏向上），1万天学会下山(小隐隐于世)。

关注

8
点赞
踩
4

收藏

觉得还不错? 一键收藏
打赏
0
评论
2024-01-06-AI 大模型全栈工程师 - Fine-tuning 集中答疑

2024-01-06 周六杭州晴好好学习模型训练，在我的有生之年一定可以造出来通用人工智能体，但是我绝不会把自己的意识上传，人生三万天足以，1万天用于野蛮成长，1万天用于发展（拼搏向上），1万天学会下山(小隐隐于世)。
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

流雨声 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。