TensorRT
abrams90
沉下心来看论文~
展开
-
TensorRT4.0开发手册(1)
第一章 综述NVIDIA的TensorRT是一个基于GPU高性能前向运算的C++库。TensorRT导入网络定义,通过合并tensors与layers,权值转换,选择高效中间数据类型,基于层参数与性能评估的选择,来进行网络优化。TensorRT提供模型导入途径来帮助你对训练好的深度学习模型进行表示,同于TensorRT的优化与运行。这种优化工具自动进行图优化,层融合,并利用多样化的高度优化的计算...翻译 2018-05-21 15:16:15 · 7558 阅读 · 1 评论 -
TensorRT4.0开发手册(2)
第二章 TensorRT Workflows下列表格列出了TensorRT特点一支持的API以及解析器。 表2 特点与支持的API’s 下列表格列出了TensorRT特点以及支持的平台表3 特点与支持的平台注:序列化引擎不能再不同TensorRT版本间与不同平台间交叉使用。 2.1 Key Concepts请确保你知悉以下关键概念:UFFUFF(Universal Framework Format...翻译 2018-05-22 19:19:28 · 17504 阅读 · 6 评论 -
TensorRT4.0开发手册(3)
2.7 TensorRT Lite在Python接口中还有一个高度抽象的推理模块叫做TensorRT Lite。TensorRT Lite几乎可以完成任何任务,从创建一个engine,执行推理。因此,用户可以简单的创建一个engine,开始处理数据。TensorRT Lite接口位于tensorrt.lite,包含一个叫做Engine的类。engine构造利用模型定义,输入输出,从而生成一个完整的...翻译 2018-05-23 09:52:56 · 2592 阅读 · 2 评论 -
Training With Mixed Precision
Chapter 2. Mixed Precision Training在NVIDIA DeepLearning SDK的cuda8与Pascal架构中已经在训练时引入了低精度的能力。混合精度在计算方法中结合了不同数据精度。半精度(也被称为FP16)对比高精度的FP32与FP64降低了神经网络的显存占用,使得我们可以训练部署更大的网络,并且FP16在数据转换时比FP32或者FP64更节省时间。单精度...翻译 2018-06-11 15:13:27 · 1747 阅读 · 0 评论 -
TensorRT3.0开发手册 (SamplePlugin:Implementing A Custom Layer)
3.8 SamplePlugin:Implementing A Custom LayerSamplePlugin例程展示了如何在TensorRT中新增一个用户自定义层。例程中实现了如何将MNIST例程中原本直接cuBLAS库实现的最后全卷积层进行替换。注:当前Plugin层只支持FP32精度。3.8.1 Key Concepts本例中解释的关键概念包括:Ø 如何创建一个用户自定义层Ø 如何利用...翻译 2018-06-01 15:50:47 · 2206 阅读 · 1 评论