新增Transformer优化！NVIDIA最新发布TensorRT 8！推理方面取得重大突破

英伟达发布TensorRT8：BERT-Large推理仅1.2毫秒，性能翻倍

最新推荐文章于 2025-03-20 20:51:01 发布

转载最新推荐文章于 2025-03-20 20:51:01 发布 · 4.7k 阅读

文章标签：

#人工智能 #机器学习 #深度学习 #计算机视觉 #java

点击下方卡片，关注“CVer”公众号

AI/CV重磅干货，第一时间送达

转载自：新智元 | 来源：Nvidia

编辑：Priscilla 好困

【导读】近日，英伟达悄悄地发布了TensorRT 8，BERT-Large推理仅需1.2毫秒！同时还加入了量化感知训练和对稀疏性的支持，实现了性能200%的提升。项目已开源。

2019年黄仁勋在GTC China正式发布了TensorRT 7，并称其是「我们实现的最大飞跃」。

然而今年TensorRT 8的发布却十分低调。

相比于7.0，TensorRT 8可以说是实现了2倍的性能提升。

在1.2毫秒内实现BERT-Large的推理

通过量化感知训练让INT8的精度达到了与FP32相当的水平

支持稀疏性，让Ampere GPU拥有更快的推理速度

TensorRT 8可应用于各种不同的场景，例如自动送货机器人、自动化农场、自动光学检测、视频分析，还有能够转写和输入的聊天机器人。

TensorRT

TensorRT是一种高性能的深度学习推理（Inference）的优化器和运行引擎，以TensorFlow等框架训练得到的模型作为输入，为CUDA GPU生成优化了的模型运行时间。

TensorRT为深度学习推理应用的生产部署提供了INT8和FP16优化，通过减少推理的时间来降低应用程序的延迟。

同时，TensorRT可以通过寻找计算图中可以融合的节点和边，减少计算和内存访问，并利用稀疏张量核心提供额外的性能提升。

1. 降低混合精度

通过将模型量化到INT8，同时保留精度，最大限度地提高吞吐量

2. 层和张量融合

通过融合内核中的节点，优化GPU内存和带宽的使用

3. 内核自动调整

根据目标GPU平台选择最佳数据层和算法

4. 动态张量内存

最大限度地减少内存占用，并有效地重复使用张量的内存

5. 多数据流执行

使用可扩展的设计来并行处理多个输入流

6. 时间融合

通过动态生成的内核，在时间上优化循环神经网络

7.0

相比于只支持30种模型的TensorRT 5，TensorRT 7支持各种类型的RNN、Transformer和CNN，并且还支持多达1000种不同的计算变换和优化，包括BERT、RoBERTa等。

在交互式会话AI方面，TensorRT 7可以让推理时间缩短到0.3秒，是CPU速度的10倍。

那问题来了，这次新推出的TensorRT 8做出了哪些改进呢？

推理速度更快
大型语言模型（LSLM），如BERT、GPT-2和XL-Net，极大提升了许多自然语言处理（NLP）任务的准确性。
自2018年10月发布以来，BERT（Bidirectional Encoder Representations from Transformers）及其所有的许多变体，仍然是最受欢迎的语言模型之一，并且仍然可以提供SOTA的准确性。

通过最新的优化，TensorRT 8可以加速所有大型语言模型，并将推理时间减少到TensorRT 7的50%。

让交互式会话AI更智能

英伟达AI软件产品管理总监Kari Briski指出，TensorRT 8在BERT- Large的推理上取得了突破。

TensorRT 8能够在短短1.2毫秒内对BERT进行推理。

这种推理速度「可以让对话式AI更智能」，提高众多交互式应用程序的性能。

稀疏性让Ampere GPUs推理更快

在AI推理和机器学习中，稀疏性是指包含许多不会显着影响计算的零或值的数字矩阵。

多年来，机器学习研究人员一直在努力使用数字来加速人工智能，目标是减少深度学习所需的矩阵乘法堆，缩短获得结果的时间。

在TensorRT 8中使用稀疏性技术，能够提升英伟达Ampere架构的GPU性能。

在保证推理精度的同时，降低深度学习模型中的部分权重，减小模型所需要的带宽和内存。

内存有富余，就可以分配给那些需要计算的部分，推理速度自然也上来了。

量化感知训练提高精度

一直以来，人工智能培训是在数据中心完成的，用大量数据、几十万小时的语音数据进行训练，将模型训练到最高级别的准确度。

但是，经过大量训练、准确度高的模型运行起来可能会很慢，模型也会变得越来越复杂。

根据O'Reilly最近发布的调查结果显示，86.7%的组织现在正在考虑、评估或投入生产AI产品。

德勤报告称，53%采用人工智能的企业在2019年和2020年在技术和人才上的支出超过2000万美元。

换言之，现在不仅是数据中心会进行推理部分的工作，在嵌入式系统、汽车系统中也会有推理工作。

这就要求在推理过程中，保持训练时的最高准确度，并且在硬件设备上运行，尽可能缩短响应时间和增加客户吞吐量。

因此，TensorRT 8优化了Transformer，增强了性能。

同时利用量化感知训练提高准确性，将INT8精度的准确度提高了2倍，既保证精度，也减少了计算和存储成本。

TensorRT的应用

英伟达表示，自五年前TensorRT首次发布以，下载量已经达到近250万次，共27500家公司加入到该生态之中，应用的领域涵盖医疗保健、汽车、金融和零售等。

应用TensorRT的公司

开源AI公司Hugging Face与英伟达合作推出了AI文本分析、神经搜索和对话式AI服务。

该公司的产品总监Jeff Boudier称，在TensorRT 8的帮助下，Hugging Face在BERT上的推理延迟仅有1.2毫秒。

在临床医疗领域应用方面，GE医疗心血管超声首席工程师Erik Steen表示，临床医生需要花时间来评估超声图像。

但TensorRT实时的推理能力，极大提高了GE医疗的视图检测算法性能，极大加快了临床医生的工作效率。

而微信也实现了基于TensorRT-and-INT8 QAT的模型推理加速，加快微信搜索的核心业务。

TensorRT 8无疑还会促使客服机器人反应更快更聪明，让实时翻译更迅速。

现在，TensorRT 8最新版本已在GitHub中开源。

部署TensorRT

下载TensorRT Build

git clone -b master https://github.com/nvidia/TensorRT TensorRTcd TensorRTgit submodule update --init --recursive

如果使用TensorRT OSS Build容器，TensorRT库已经预装在/usr/lib/x86_64-linux-gnu下。否则需要下载TensorRT GA build。

Ubuntu 18.04 x86-64 cuda-11.3

cd ~/Downloadstar -xvzf TensorRT-8.0.1.6.Ubuntu-18.04.x86_64-gnu.cuda-11.3.cudnn8.2.tar.gzexport TRT_LIBPATH=`pwd`/TensorRT-8.0.1.6

Windows x86-64 cuda-11.3

cd ~\DownloadsExpand-Archive .\TensorRT-8.0.1.6.Windows10.x86_64.cuda-11.3.cudnn8.2.zip$Env:TRT_LIBPATH = '$(Get-Location)\TensorRT-8.0.1.6'$Env:PATH += 'C:\Program Files (x86)\Microsoft Visual Studio\2017\Professional\MSBuild\15.0\Bin\'

构建环境

1. 生成TensorRT-OSS Build容器

TensorRT-OSS Build容器可以使用提供的Dockerfiles和Build脚本来生成。

Ubuntu 18.04 x86-64 cuda-11.3

./docker/build.sh --file docker/ubuntu-18.04.Dockerfile --tag tensorrt-ubuntu18.04-cuda11.3 --cuda 11.3.1

2. 启动TensorRT-OSS Build容器

Ubuntu 18.04

./docker/launch.sh --tag tensorrt-ubuntu18.04-cuda11.3 --gpus all

构建TensorRT-OSS

生成Makefiles或VS项目（Windows）并构建。

Linux x86-64 cuda-11.3

cd $TRT_OSSPATHmkdir -p build && cd buildcmake .. -DTRT_LIB_DIR=$TRT_LIBPATH -DTRT_OUT_DIR=`pwd`/outmake -j$(nproc)

Windows x86-64 Powershell

cd $Env:TRT_OSSPATHmkdir -p build ; cd buildcmake .. -DTRT_LIB_DIR=$Env:TRT_LIBPATH -DTRT_OUT_DIR='$(Get-Location)\out' -DCMAKE_TOOLCHAIN_FILE=..\cmake\toolchains\cmake_x64_win.toolchainmsbuild ALL_BUILD.vcxproj

参考资料：

https://github.com/NVIDIA/TensorRT

https://developer.nvidia.com/blog/nvidia-announces-tensorrt-8-slashing-bert-large-inference-down-to-1-millisecond/

https://venturebeat.com/2021/07/20/nvidia-releases-tensorrt-8-for-faster-ai-inference/

TensorRT 8 下载和使用

后台回复：TensorRT8，即可下载代码和使用

CVPR和Transformer资料下载

后台回复：CVPR2021，即可下载CVPR 2021论文和代码开源的论文合集
后台回复：Transformer综述，即可下载最新的两篇Transformer综述PDF
CVer-Transformer交流群成立
扫码添加CVer助手，可申请加入CVer-Transformer 微信交流群，方向已涵盖：目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch和TensorFlow等群。
一定要备注：研究方向+地点+学校/公司+昵称（如Transformer+上海+上交+卡卡），根据格式备注，可更快被通过且邀请进群
▲长按加小助手微信，进交流群▲点击上方卡片，关注CVer公众号
整理不易，请点赞和在看