cudnn不同卷积实现速度和空间比拼

最新推荐文章于 2023-11-01 09:06:41 发布

头发光了你就强了

最新推荐文章于 2023-11-01 09:06:41 发布

阅读量1.2k

点赞数

分类专栏：深度学习

本文链接：https://blog.csdn.net/qq_33345917/article/details/106994221

版权

深度学习专栏收录该内容

65 篇文章 0 订阅

订阅专栏

卷积逻辑上只有一种理解，但硬件实现为了加速和节约空间有各种不同的实现。cudnn上有8种实现，我用的cudnn7,CUDNN_CONVOLUTION_FWD_ALGO_DIRECT在cudnn上没有实现。
在这里插入图片描述
在输入为[1,200,200,3],卷积核为[3,3,3,3]，stride为1，pad为1时，各个运算时间，gpu显存消耗，workspace size 为

0.000003S	233M	0M
0.0000026S	233M	0.228M
0.0000036S	233M	4.1198M
not supoort in cudnn7
0.0000073S	233M	7.546M
0.0000471S	233M	0.134M
0.0000066S	233M	0.0159M
0.0000036S	233M	32.96M

可见在nvidia卡上，速度最快的CUDNN_CONVOLUTION_FWD_ALGO_IMPLICIT_PRECOMP_GEMM，而且所需的work space极少。WINOGRAD更适合fpga平台。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

头发光了你就强了

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
4
评论
cudnn不同卷积实现速度和空间比拼

卷积逻辑上只有一种理解，但硬件实现为了加速和节约空间有各种不同的实现。cudnn上有8种实现，我用的cudnn7,CUDNN_CONVOLUTION_FWD_ALGO_DIRECT在cudnn上没有实现。在输入为[1,200,200,3],卷积核为[3,3,3,3]，stride为1，pad为1时，各个运算时间，gpu显存消耗，workspace size 为0.000003S233M0M0.0000026S233M0.228M0.0000036S233M4.119
复制链接

扫一扫