常见显存优化技术的使用

zhulu506

已于 2024-10-13 23:18:23 修改

阅读量546

点赞数 7

文章标签： pytorch transformer

于 2024-10-01 23:00:29 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43254181/article/details/142663228

版权

文章目录

PyTorch
Hugging Face
DeepSpeed

PyTorch

torch.utils.checkpoint官方文档
PyTorch Training Performance Guide 中关于 Gradient Checkpoints 的介绍
例子1：Pytorch高效降低内存 torch.utils.checkpoint()的使用
例子2：使用 checkpoint 优化前和使用 checkpoint 优化后
例子3：PyTorch Memory optimizations via gradient checkpointing
例子4：pytorch显存管理、前向传播中间激活存储（intermediate activation）和torch.utils.checkpoint

Hugging Face

DeepSpeed

项目地址
- DeepSpeed
- DeepSpeedExamples/training
官方文档：
Hugging Face与DeepSpeed的集成
- 官方文档
- DeepSpeed集成
- DeepSpeed 与 Trainer 集成的文档
- DeepSpeed 与 Accelerate 集成的文档
博客：
- 大模型微调实践必看——一文看懂Deepspeed：用ZeRO训练大模型原理解析及参数含义解释
- deepspeed入门教程
- DeepSpeed使用指南(简略版)
- 关于Deepspeed的一些总结与心得
- PyTorch Distributed Training with DeepSpeed
  - 翻译1：深度学习模型训练显存占用及DP、MP、PP分布式训练策略
  - 翻译2：详解 DeepSpeed Zero 的各个 Stage 状态及日常使用
- zero_stage核心目的：优化训练方式和硬件（GPU/TPU/CPU）使用效率，让用户训练transformers类的大模型更加高效。[引用]
例子：[ deepSpeed ] 单机单卡本地运行 & Docker运行，改编于官方示例
- 解决报错FileNotFoundError: [Errno 2] No such file or directory: 'numactl'，安装numactl：sudo apt-get install numactl
- 解决报错ModuleNotFoundError: No module named 'ninja'，安装ninja：pip install ninja，注意这里如果用conda安装还是会报错，原因不明。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。