GPU架构中的半精度fp16与单精度fp32计算

最新推荐文章于 2024-05-15 17:04:24 发布

__DARK__

最新推荐文章于 2024-05-15 17:04:24 发布

阅读量2.6w

点赞数 4

分类专栏： GPU 体系架构

本文链接：https://blog.csdn.net/dark5669/article/details/79976015

版权

GPU 体系架构专栏收录该内容

24 篇文章 1 订阅

订阅专栏

GPU架构中的半精度与单精度计算

由于项目原因，我们需要对darknet中卷积层进行优化，然而对于像caffe或者darknet这类深度学习框架来说，都已经将卷积运算转换成了矩阵乘法，从而可以方便调用cublas 库函数和cudnn里tiling 过的矩阵乘。

CUDA在推出7.5的时候提出了可以计算16位浮点数据的新特性。定义了两种新的数据类型half和half2. 之前有师弟已经DEMO过半精度memory copy 与计算，发现copy的代价会减少一半，而计算的提升并不是很理想。误打误撞看到了《why cublasHgemm is slower more than cublasSgemm when I use?》这个帖子，终于发现其中的一点规律。

问题的提出者问，为什么在GTX1070上运行 cublasHgemm（半精度计算）比 cublasSgemm（单精度计算）计算的慢呢？nv官方的回答说，当前的Pascal架构的GPU只有的 P100 的FP16计算快于 FP32。并且给出了编程手册的吞吐量的表。

这里写图片描述

从表中我们可以看出，对半精度支持更好的是架构计算能力 5.3和6.2 分别对应嵌入式的平台 Jetson TX1和Jetson TX2，而计算能力6.0的就是我们上边提到的P100了。而计算能力7.0则是最新的volta架构了。

另一位开发者提供了他在P100下测试的程序样例，见ref 【1】

ref

https://github.com/hma02/cublasHgemm-P100

https://docs.nvidia.com/cuda/cuda-c-programming-guide/index.html#arithmetic-instructions

https://devtalk.nvidia.com/default/topic/972337/gpu-accelerated-libraries/why-cublashgemm-is-slower-more-than-cublassgemm-when-i-use-/

__DARK__

关注

4
点赞
踩
15

收藏

觉得还不错? 一键收藏
0
评论
GPU架构中的半精度fp16与单精度fp32计算

GPU架构中的半精度与单精度计算由于项目原因，我们需要对darknet中卷积层进行优化，然而对于像caffe或者darknet这类深度学习框架来说，都已经将卷积运算转换成了矩阵乘法，从而可以方便调用cublas 库函数和cudnn里tiling 过的矩阵乘。 CUDA在推出7.5的时候提出了可以计算16位浮点数据的新特性。定义了两种新的数据类型half和half2. 之...
复制链接

扫一扫