（2）一文懂“AI推理芯片” 测试方法与测试指标

最新推荐文章于 2023-07-13 10:46:42 发布

embed_huang

最新推荐文章于 2023-07-13 10:46:42 发布

阅读量2.2k

点赞数 2

分类专栏：人工智能+芯片（一文懂）文章标签：人工智能自然语言处理 MLPerf 推理芯片测试芯片测试方法与指标

本文链接：https://blog.csdn.net/huangblog/article/details/119647214

版权

人工智能+芯片（一文懂）专栏收录该内容

6 篇文章 7 订阅

订阅专栏

1、前言

Inference是用于测试系统使用训练有素的模型处理输入和产生结果的速度。

1.1 缘起

随着人工智能应用的崛起，其在不同的硬件芯片平台上的性能也逐渐变成了比较不同硬件和芯片的重要参考。然而，最初由各个芯片厂商自行公布的跑分结果往往很难直接比较，因为其中包括了许多不同的参数，例如模型版本（例如同一个ResNet50可以延伸出许多不同的版本，不同厂商可能会选取对自己芯片最有利的版本来做跑分），模型数字精度（浮点数还是整数）等等，这时候就需要一个统一的测试方法与指标了。

1.2 MLPerf

MLPerf就出现了，该跑分（benchmark）平台是一个由第三方机构（MLCommons）维护的平台，不同的机构则可以上传这些标准模型在自己的硬件芯片上的跑分结果，并且由MLCommons收集并验证后统一公布在网站上。这样一来，不同硬件芯片平台在做AI模型跑分的时候，就可以有一个统一的模型，也可以直接相互比较。

1.3 涵盖范围

涵盖了图像分类（ResNet）、医学影像分割（U-Net3D）、目标物体检测（SSD）、目标物体检测（Mask R-CNN）、语音识别（RNN-T）、自然语言理解（BERT）、智能推荐（DLRM）以及强化机器学习（Minigo）8类AI应用场景。

1.4 名称解释

SUT：被测系统（System under test）

mAP：平均精度均值（Mean average precision）

mIoU：平均交并比（Mean intersection over union）

FPS：每秒帧率（Frame per second）

FAR：误识率（False accept rate）

FRR：拒识率（False reject rate）

IR：识别正确率（Identification rate）

WER：词错误率（Word error rate）

SER：句错误率（Sentence error rate）

2、测试指标与测试方法

2.1 喂数据方式（MLPerf--Loadgen）

Scenario （场景）	Query Generation	Duration	Samples/query	Latency Constraint	Tail Latency	Performance Metric
Single stream	LoadGen sends next query as soon as SUT completes the previous query：串行方式，query一次完整再下一次	1024 queries and 60 seconds	1	None	90%	90%-ile measured latency
Multiple stream	LoadGen sends a new query every latency constraint if the SUT has completed the prior query, otherwise the new query is dropped and is counted as one overtime query 1、query 的samples随机 2、如果超过latency constraint，query完成不会立刻query即drop，而是下个周期再query，导致总的耗时变长	270,336 queries and 60 seconds	Variable, see metric	Benchmark specific	99%	Maximum number of inferences per query supported
Server	LoadGen sends new queries to the SUT according to a Poisson distribution：根据泊松分布query	270,336 queries and 60 seconds	1	Benchmark specific	99%	Maximum Poisson throughput parameter supported
Offline	LoadGen sends all queries to the SUT at start：极限性能（极限处理能力）	1 query and 60 seconds	At least 24,576	None	N/A	Measured throughput

2.2 测试指标

最大吞吐量性能、平均前向推理速率、前向推理时延、功耗、能效比、模型推理准确度等

3、测试标准

4、测试指标解释

待完善

5、训练芯片测试指标与方法

https://blog.csdn.net/huangblog/article/details/119646718

embed_huang

关注

2
点赞
踩
15

收藏

觉得还不错? 一键收藏
1
评论
（2）一文懂“AI推理芯片” 测试方法与测试指标

涵盖了图像分类（ResNet）、医学影像分割（U-Net3D）、目标物体检测（SSD）、目标物体检测（Mask R-CNN）、语音识别（RNN-T）、自然语言理解（BERT）、智能推荐（DLRM）以及强化机器学习（Minigo）8类AI应用场景
复制链接

扫一扫