NVIDIA FasterTransformer

望舒使先驱兮

已于 2022-07-25 19:23:31 修改

阅读量890

点赞数 1

分类专栏： CUDA高性能计算文章标签：深度学习硬件架构人工智能

于 2022-07-25 19:22:07 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43108680/article/details/125981597

版权

CUDA高性能计算专栏收录该内容

2 篇文章

订阅专栏

NVIDIA FasterTransformer

NVIDIA GPU计算专家团队针对transformer推理提出了性能优化方案：FasterTransformer，截止到2022年7月，这套方案支持的模型涵盖了BERT、GPT、LongFormer、T5、XLNet、ViT、Swin Transformer，同时支持int8推理。

FasterTansformer Github

FasterTransformer加速思想主要包括：

将除了矩阵乘法外的kernel尽可能合并；（即多个OP尽可能合并成1个OP）
针对batch size较大的情况进行了精细调优，除了合并OP外，还包括根据数据精度类型的不同在cuBLAS库中选择最优的矩阵乘法kernel、非矩阵乘法OP的参数配置（主要是grid和block）、Softmax多版本实现和数据结构类型调整；
针对FP16，将half类型换为half2类型，访存和带宽和计算带宽提升为2倍；
一些函数替换，1/sqrtf替换为rsqrtf，power(x,3)替换为x* x* x；

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。