序
- 最近看CDQA这个开源库的时候看到了混合精度训练这种写法,所以简单去了解了下,
- 结果得出了一个很悲催的结论:我的小破笔记本的显卡不支持混合精度训练…??!
- 自己不研究这个,找到一些很不错的资料,自己看完后这里就奉送上!
Tensor Core
-----------------------------大神自取-----------------------------
1. Deep Learning Performance Guide
- 本着扩充知识的目的,我们来简单普及一些关于显卡的知识,虽然买不起…
GPU参数解释
体现GPU计算能力的两个重要特征:
1)CUDA核的个数;
2)存储器大小。
描述GPU性能的两个重要指标:
1)计算性能峰值;
2)存储器带宽。
GPU,CUDA,cuDNN的理解
-
补:cuDNN将研究人员创建和优化CUDA代码以提高DL性能的需求抽象出来
GPU选择(土豪自取)
GPU正篇
- 上面其实是为下面的两篇文章稍微打打基础,简单看看,可以当作普及知识,两篇文章大致从GPU硬件角度出发,解释的混合精度训练和一些测试结果:
- 2.NVIDIA深度学习Tensor Core全面解析(上篇)
- 3.NVIDIA深度学习Tensor Core全面解析(下篇)
基于混和精度的模型加速
原始博文
- 本这篇文章重在工程化,给出了具体的代码以及下面的相应的参考资料,这几份参考资料都很不错,看完上面的博文,有需要可以仔细读读下面的资料
参考资料:
1.nv官方repo给了一些基于pytorch的apex加速的实现
- 实现是基于fairseq实现的,可以直接对比代码1-apex版和代码2-非apex版(fairseq官方版),了解是如何基于apex实现加速的。
- 按图索骥,可以get到很多更加具体地内容。