Ｍｉｘｅd-precision(混合精度训练)

最新推荐文章于 2025-03-08 11:56:49 发布

jacob_wjj

最新推荐文章于 2025-03-08 11:56:49 发布

阅读量1.1w

点赞数 8

分类专栏：深度学习文章标签：深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/jiangbo1017/article/details/79318548

版权

本文探讨混合精度训练在深度学习中的应用，旨在降低模型训练的显存占用并加速训练过程，同时保持模型精度。介绍了FP32主副本权重、损失缩放和BN处理等关键概念，并分析了它们如何解决训练中的精度问题。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

混合精度训练

最近刚好在做相关工作，所以花点时间对混合精度进行模型训练进行一下理解与总结．详细数据请参考百度与ｎｖｉｄｉａ联合放在ａｒxiv上的论文：https://arxiv.org/pdf/1710.03740.pdf

概述

深度学习模型的计算任务分为训练和推理．训练往往是放在云端或者超算集群中，利用ＧＰＵ强大的浮点计算能力，来完成网络模型参数的学习过程．一般来说训练时，计算资源往往非常充足，基本上受限于显存资源／多节点扩展／通讯库效率的问题．相对于训练过程，推理往往被应用于终端设备，如手机，计算资源／功耗都收到严格的限制，为了解决这样的问题，提出了很多不同的方法来减少模型的大小以及所需的计算资源／存储资源．模型压缩除了剪枝以外，还有一个方法就是降低模型参数的数值精度．随着网络深度的加大，带来的参数数量也呈现指数级增长，如何将最终学习好的网络模型塞入到终端设备有限的空间中是目前很多性能优良的网络真正应用到日常生活中的一大阻碍．
本文主要讨论如何降低模型训练时的数值精度来加速训练过程．现在的模型训练过程基本上使用单精度和双精度，如果网络模型很大，那么受限于显存空间（最新的ｖｏｌｔａ 100是１６Ｇ）,batch size就会非常小．

最低0.47元/天解锁文章

博客等级

码龄13年

77
原创

42
点赞

109
收藏

44
粉丝

关注

私信

热门文章

分类专栏

最新评论

Ｍｉｘｅd-precision(混合精度训练)
WUT ISC: 排版都不会排清楚先别发帖吧
Swig实现将C、C++编译成Python动态链接库
Deep Learning小舟: 好棒！(^ ^)
Tensorflow MPI Enable Intro
youzhenfei1995: 您好，请问这个问题您解决了吗，能不能推荐一些资料，tensorflow MP这方面能够I能够查到的资料太少了
OpenCV 2.4.13.16 + cuda 9 + centos7 编译
wangzai6378: 你好，我现在也在弄这个；我编译的是opencv3.4+cuda9.1；也是想使用其中的硬解功能，在opencv3.4中已经像你上面这样配置好了，编译过程还算顺利。我在使用是总是会报createVideoSource函数未初始化的错误，我再自己的工程中也进行了上面的初始化，我没有把dynlink_nvcuvid.cpp、dynlink_cuda.cpp加入一起编译。在自己的demo工程中我同样包含了dynlink_nvcuvid.h头文件，进行初始化时报链接错误，于是我把上面的两个cpp也加入到工程中一起编译，这时编译通过了；但运行时cv::cuda::createVideoReader在调用createVideoSource函数时，还是报该函数异常访问，我自己也测试了，在调用cv::cuda::createVideoReader之前直接使用createVideoSource，但这样我自己调用的这个是可以的，这是怎么回事啊？请教，另外toolkit9中的nvcuvid.lib有什么用，我看百度上面有一个人是用它直接就解码了，没有依赖dynlink_nvcuvid.cpp...
tensorflow内存分配器剖析
qq_38343816: 请问这一段位于TensorFlow源码的哪个位置呢

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。