TensorRT教程20：TensorRT 几个重要概念（重要）

最新推荐文章于 2024-06-24 18:03:24 发布

米斯特龙_ZXL

最新推荐文章于 2024-06-24 18:03:24 发布

阅读量2.8k

点赞数 3

分类专栏： TensorRT教程文章标签：计算机视觉目标检测机器学习人工智能深度学习

本文链接：https://blog.csdn.net/weixin_41562691/article/details/119085155

版权

TensorRT教程专栏收录该内容

20 篇文章 117 订阅

订阅专栏

延迟 (Latency):

指执行一个操作所花的时间。

吞吐量 (Throughput):

在单位时间内，可执行的运算次数。

batch size----explicit and dynamic.

批量大小的确定通常基于吞吐量和延迟之间的权衡。如果您需要低延迟，请使用低批量。如果您更喜欢高吞吐量并且可以接受更高的延迟，则可以改用大批量。

TensorRT 有两种批量大小模式：显式（explicit）和动态（dynamic）。

显式批处理网络 接受固定的预定批处理大小。如果您确切地知道期望的批处理大小，则显式批处理模式很有用 - 因为它可以让您跳过指定优化配置文件的添加步骤。与 TF-TRT 和 TensorRT API 不同，通过 ONNX 路径转换网络时需要此模式。

动态形状网络 可以接受一系列批量大小。您必须提供“ 优化配置文件 使用动态形状时， ”，以便指定您希望收到的批次大小的可能范围。这是必需的，因为 TensorRT 做了很多特定于批量大小的优化。

Explicit batch–显式批处理

向 TensorRT 构建器表明模型包含批量大小作为输入张量的维度之一。 TensorRT 的隐式批处理模式允许从网络定义中省略批处理大小并由用户在运行时提供，但 ONNX 解析器不支持此模式。

Precision: TF32/FP32/FP16/INT8

NVIDIA GPU 的 TensorRT 功能支持（例如精度）取决于它们的 计算能力 。您可以在上查看显卡的计算能力 NVIDIA 网站。 RTX3070 算力是8.6

V100 作为 FP16 处理相对强大，而 T4 往往在 INT8 模式下运行最佳。

根据所述计算能力，TensorRT 支持不同的精度。您可以在查看您的计算能力支持哪些功能 TensorRT 文档中。

TF32 是计算能力为 8.0 及更高的卡（例如 NVIDIA A100 及更高版本）的默认训练精度 - 当您希望在计算能力为 8.0 或更高的卡上尽可能接近地复制原始模型性能时使用。

TF32 是一种精度，旨在以 FP16 的精度保留 FP32 的范围。在实践中，这意味着 TF32 模型比 FP32 模型训练得更快，同时仍能收敛到相同的精度。此功能仅适用于较新的 GPU。

FP32 是计算能力低于 8.0 的卡（例如 NVIDIA A100 之前）的默认训练精度 - 当您希望在计算能力低于 8.0 的卡上尽可能接近地复制原始模型性能时使用

FP16 是一种专注于降低精度的推理。它为具有更低延迟和更低内存占用的更快模型提供了一些准确性。在实践中，FP16 的精度损失通常可以忽略不计——因此在大多数情况下，FP16 是推理的一个相当安全的赌注。专注于深度学习训练的卡片通常具有强大的 FP16 能力，这使得 FP16 成为预期用于训练和推理的 GPU 的绝佳选择。

INT8 是一种专注于降低精度的推理。与 FP16 相比，它进一步降低了内存要求和延迟。 INT8 有可能比 FP16 损失更多的准确性——但 TensorRT 提供了工具来帮助您量化网络的 INT8 权重，以尽可能避免这种情况。 INT8 需要额外的步骤来校准 TensorRT 应该如何将您的权重量化为整数——需要一些样本数据。通过仔细调整和良好的校准数据集，INT8 的精度损失通常很小。这使得 INT8 非常适合低功耗环境，例如使用 T4 GPU 或 AGX Jetson 模块的环境——两者都具有强大的 INT8 功能。

binding–绑定

描述engine的输入输出端口。其实就是对输入输出端口的tensor描述其大小等信息。我们用cudaMalloc()函数为engine申请输入输出buff的时候需要查询使用这些信息

Runtime–运行时

TensorRT 的组件，它在 TensorRT 引擎上执行推理。运行时 API 支持同步和异步执行、分析以及枚举和查询引擎输入和输出的绑定。

Builder–构建器

TensorRT 的模型优化器。构建器将网络定义作为输入，执行独立于设备和特定于设备的优化，并创建一个引擎。有关构建器的更多信息，请参阅构建器 API。

build、engine、context介绍

https://blog.csdn.net/qq_33287871/article/details/113730594

在这里插入图片描述

米斯特龙_ZXL

关注

3
点赞
踩
24

收藏

觉得还不错? 一键收藏
打赏
1
评论
TensorRT教程20：TensorRT 几个重要概念（重要）

延迟 (Latency):指执行一个操作所花的时间。吞吐量 (Throughput):在单位时间内，可执行的运算次数。batch size----explicit and dynamic.批量大小的确定通常基于吞吐量和延迟之间的权衡。如果您需要低延迟，请使用低批量。如果您更喜欢高吞吐量并且可以接受更高的延迟，则可以改用大批量。TensorRT 有两种批量大小模式：显式（explicit）和动态（dynamic）。显式批处理网络接受固定的预定批处理大小。如果您确切地知道期望的
复制链接

扫一扫