高效模型量化工具包-AIMET（六）

最新推荐文章于 2024-08-07 10:06:42 发布

weixin_38498942

最新推荐文章于 2024-08-07 10:06:42 发布

阅读量979

点赞数 29

文章标签： Qualcomm

本文链接：https://blog.csdn.net/weixin_38498942/article/details/139091099

版权

高效模型量化工具包-AIMET（六）

- - 4.7 结果
  - 4.8 调试

4.7 结果

在本节中，我们展示了本章讨论的后训练技术的有效性。表4.1展示了使用CLE/BC技术（在第4.3节中详细介绍）进行目标分类和语义分割等流行用例的INT8量化准确性。我们可以看到，使用CLE/BC 8位量化，准确性与原始FP32模型相差不到1%，从而证明了CLE/BC的有效性，而无需进行任何模型微调。
表 4.1

表4.1：使用AIMET PTQ方法（CLE和偏差校正）在ImageNet上的结果（top-1准确率）

表4.2展示了用于高级驾驶辅助系统（ADAS）应用的目标检测模型的量化准确性。尽管使用了CLE/BC，对这个模型进行量化是具有挑战性的。传统的最近舍入方法的量化准确性明显低于FP32性能。然而，使用AdaRound，我们可以在INT8准确性上达到与FP32相差不到1%的水平。
表4.2

表4.2：AdaRound在ADAS目标检测模型上的结果。mAP表示平均精度

4.8 调试

我们展示了标准PTQ流程可以在各种模型和网络上取得竞争性的结果。然而，如果在按照我们的流程进行操作后，模型的性能仍然不令人满意，我们建议进行一系列诊断步骤，以确定瓶颈并改善性能。虽然这不是严格意义上的算法，但这些调试步骤可以提供关于为什么量化模型表现不佳的见解，并帮助解决潜在问题。这些步骤在图4.5中以流程图的形式展示，并在下面进行了更详细的描述：
FP32合理性检查 一个重要的初始调试步骤是确保浮点和量化模型在前向传递时表现相似，特别是在使用自定义量化流水线时。将量化模型的位宽设置为32位，包括权重和激活函数，或者如果可能的话，绕过量化操作，并检查准确性是否与FP32模型相匹配。

图4.5

（图4.5 PTQ调试流程图。错误是浮点和量化模型准确性之间的差异

权重或激活函数量化 接下来的调试步骤是确定激活函数或权重量化对性能的影响。如果将所有权重量化为更高的位宽，同时将激活函数保持在较低的位宽，性能是否会恢复？或者反过来，如果所有激活函数使用较高的位宽，而权重使用较低的位宽，性能是否会恢复？这一步可以显示激活函数和权重量化对整体性能下降的相对贡献，并指导我们找到适当的解决方案。
修复权重量化 如果前一步显示权重量化确实导致了显著的准确性下降，那么有几种解决方案可以尝试：
• 应用CLE（参见第4.3节），特别适用于具有深度可分离卷积的模型。
• 如果有校准数据，则应用偏差校正（参见第4.5节）或AdaRound（参见第4.6节）。
修复激活函数量化 为了减少激活函数量化引起的量化误差，我们还可以尝试使用不同的范围设置方法或调整CLE（参见第4.3节）以考虑激活函数量化范围，因为普通的CLE可能导致激活函数分布不均匀。
逐层分析 如果全局解决方案未能恢复到可接受的准确性水平，我们将逐个考虑每个量化器。我们将每个量化器依次设置为目标位宽，同时将网络的其余部分保持为32位（参见图4.5中的内部for循环）。
可视化层 如果量化单个张量导致显著的准确性下降，我们建议在不同的粒度和维度上可视化张量分布，例如BERT中的激活函数的每个标记或每个嵌入。有关AIMET支持的可视化API的详细信息，请参阅AIMET文档。
修复单个量化器 可视化步骤可以揭示张量对量化的敏感性的来源。一些常见的解决方案包括为该量化器设置自定义范围或允许较高的位宽。如果问题得到解决并且准确性恢复，我们继续下一个量化器。如果没有，我们可能需要采用其他方法，例如在第5章中介绍的量化感知训练（QAT）。
完成上述步骤后，最后一步是将完整模型量化为所需的位宽。如果准确性可接受，我们就有了最终的量化模型可供使用。否则，我们可以考虑更高的位宽和更小的粒度，或者恢复到更强大的量化方法，例如量化感知训练。

代码示例
API AIMET量化模拟（在第3.1节中介绍）允许用户为给定模型的激活函数和参数指定位宽。下面的代码示例演示了一种指定激活函数和参数位宽的模型级配置的方法。此外，用户还可以使用运行时配置文件指定用于模型量化的自定义规则（具体来说，配置文件中详细说明的params和op_type旋钮可用于此目的）。

#代码块4.6 用户可配置的激活函数和参数位宽量化仿真API示例

import torch
from aimet_torch.examples import mnist_torch_model
# Quantization related import
from aimet_torch.quantsim import QuantizationSimModel

model = mnist_torch_model.Net().to(torch.device(’cuda’))
# Create a quantization simulation model
# Adds simulation ops, configures these simulation ops
# Customize bit-width using:
# default_output_bw set to desired bit-width to be used for activation quantization
# and default_param_bw set to desired bit-width to be used for parameter quantization.
# Additionally, config_file option could be used to specify custom runtime bit-width configurations.
sim = QuantizationSimModel(model,
	dummy_input=torch.rand(1, 1, 28, 28),
	default_output_bw=8,
	default_param_bw=8,
	config_file=’custom_runtime_config.json’)
# Find optimal quantization parameters (like scale/offset)
# The callback method should send representative data
# samples through the model. The forward_pass_callback_args
# argument is passed as-is to the callback method
sim.compute_encodings(forward_pass_callback=send_samples,
	forward_pass_callback_args=None)
# Optionally, the user can export out the quantization
# parameters (like per-layer scale/offset)
sim.export(path=’./’,
	filename_prefix=’quantized_mnist’,
	dummy_input=torch.rand(1, 1, 28, 28))