Nvidia提的混合精度方案的pr,在cuda9.0上几乎没有加速效果,在cuda9.2及以上版本才有加速效果。
仔细阅读源码后 发现,pr中的混合精度的修改只涉及到输入输出部分,transformer_model整体部分并没有做混合精度的改写,所以光从源码程度的混合精度,并不会明显的速度提升。
问题来了:为什么cuda9.2及以上版本能有明显的速度提升?
Answer: cuda9.2及以上版本包含cuBLAS 库,该库是深度学习混合精度优化框架。
Nvidia提的混合精度方案的pr,在cuda9.0上几乎没有加速效果,在cuda9.2及以上版本才有加速效果。
仔细阅读源码后 发现,pr中的混合精度的修改只涉及到输入输出部分,transformer_model整体部分并没有做混合精度的改写,所以光从源码程度的混合精度,并不会明显的速度提升。
问题来了:为什么cuda9.2及以上版本能有明显的速度提升?
Answer: cuda9.2及以上版本包含cuBLAS 库,该库是深度学习混合精度优化框架。