pytorch指定用多张显卡训练_轻量化模型训练加速的再思考

最新推荐文章于 2024-07-09 22:12:40 发布

谢遨隆

最新推荐文章于 2024-07-09 22:12:40 发布

阅读量618

点赞数

文章标签： pytorch指定用多张显卡训练

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_30141959/article/details/112207005

版权

本文探讨了PyTorch模型训练的加速方法，包括使用多GPU并行训练和自动混合精度（amp）技术。通过NVIDIA-DALI库优化数据读取和增强，以及调整Dataloader和Loss计算，实现高效利用硬件资源。实验结果显示，这些策略显著提升了训练速度，但也面临GPU高温引发的降频问题。

摘要由CSDN通过智能技术生成

自上一次做完模型训练加速的实验后，陆续又有了一些新的改动，包括：

Pytorch发布了1.6.0版，官方支持amp功能，不再需要外部apex库；
DALI库也更新了多次，一些API的使用上有些区别；
研究了一下DistributedDataParallel的使用。

因此，重新梳理了训练框架，并将参考代码放到Github上。
如果觉得对你有所启发，请给个star呀。

参考代码在这儿。

1. 训练速度的瓶颈及应对思路

这边主要说的是CV领域，但在其他领域，思路应该也是相通的。
模型训练过程中，影响整体速度的因素主要有以下几点：

将数据从磁盘读取到内存的效率；
对图片进行解码的效率；
对样本进行在线增强的效率；
网络前向/反向传播和Loss计算的效率；

针对这几个因素，分别采取如下几种应对思路：

加快数据读取可以有几种思路：

采取类似TF的tfrecord或者Caffe的lmdb格式，提前将数据打包，比反复加载海量的小文件要快很多，但pytorch没有通用的数据打包方式；
在初始化时，提前将所有数据加载到内存中（前提是数据集不能太大，内存能装得下）；
将数据放在SSD而非HDD，可以极大地提速（前提是你有足够大的SSD

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
pytorch指定用多张显卡训练_轻量化模型训练加速的再思考

自上一次做完模型训练加速的实验后，陆续又有了一些新的改动，包括：Pytorch发布了1.6.0版，官方支持amp功能，不再需要外部apex库；DALI库也更新了多次，一些API的使用上有些区别；研究了一下DistributedDataParallel的使用。因此，重新梳理了训练框架，并将参考代码放到Github上。如果觉得对你有所启发，请给个star呀。参考代码在这儿。1. 训练速度的瓶颈及应对思...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。