英伟达jetpack和tensorrt_Nvidia TensorRT core和TensorRT Inference Server

1 介绍

NVIDIA基于CUDA做了完善的生态,NVIDIA TensorRT™是一个高性能深度学习推理平台。 它包括深度学习推理优化器和运行时,可为深度学习推理应用程序提供低延迟和高吞吐量。 在推理期间,基于TensorRT的应用程序比仅CPU平台的执行速度快40倍。 使用TensorRT,您可以优化在所有主要框架中训练的神经网络模型,以高精度校准低精度,最后部署到超大规模数据中心,嵌入式或汽车产品平台。TensorRT构建于NVIDIA的并行编程模型CUDA之上,使您能够利用CUDA-X AI中的库,开发工具和技术,为人工智能,自动机器,高性能计算和图形优化所有深度学习框架的推理。

基于TensorRT可以构建一个简易的但足够强大的部署平台,首先TensorRT core提供的库可以做针对GPU的优化,其次,使用TensorRT Inference Server提供推断服务.

2 TensorRT core

TensorRT™ core是一个C ++库,可以促进对NVIDIA图形处理单元(GPU)的高性能推断。 它旨在以TensorFlow,Caffe,PyTorch,MXNet等培训框架的互补方式工作。它专门用于在GPU上快速有效地运行已经训练过的网络,以便生成结果(一个过程参考 在各个地方评分,检测,回归或推断),工作原理如图1所示。

图1 TensorRT core工作原理

官方文档:NVIDIA TensorRT​developer.nvidia.com

实际案例:How to Speed Up Deep Learning Inference Using TensorRT | NVIDIA Developer Blog​devblogs.nvidia.com

问题提问:TensorRT​devtalk.nvidia.com

3 TensorRT Inference Server

为了在数据中心生产中使用AI模型,TensorRT推理服务器是一种容器化微服务,可最大化GPU利用率,并在节点上同时运行来自不同框架的多个模型。 它利用Docker和Kubernetes无缝集成到DevOps架构中,工作原理如图2所示。

图2 TensorRT推理服务器支持灵活部署推理模型

官方文档:https://devblogs.nvidia.com/nvidia-serves-deep-learning-inference/​devblogs.nvidia.com

github:https://github.com/NVIDIA/tensorrt-inference-server​github.com

官方blog:https://devblogs.nvidia.com/nvidia-docker-gpu-server-application-deployment-made-easy/​devblogs.nvidia.com

官方blog:https://devblogs.nvidia.com/speed-up-inference-tensorrt/​devblogs.nvidia.com

使用文档:NVIDIA Triton Inference Server​docs.nvidia.com

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值