(2)一文懂“AI推理芯片” 测试方法与测试指标

1、前言

    Inference是用于测试系统使用训练有素的模型处理输入和产生结果的速度。

1.1 缘起

    随着人工智能应用的崛起,其在不同的硬件芯片平台上的性能也逐渐变成了比较不同硬件和芯片的重要参考。然而,最初由各个芯片厂商自行公布的跑分结果往往很难直接比较,因为其中包括了许多不同的参数,例如模型版本(例如同一个ResNet50可以延伸出许多不同的版本,不同厂商可能会选取对自己芯片最有利的版本来做跑分),模型数字精度(浮点数还是整数)等等,这时候就需要一个统一的测试方法与指标了。

1.2 MLPerf

    MLPerf就出现了,该跑分(benchmark)平台是一个由第三方机构(MLCommons)维护的平台,不同的机构则可以上传这些标准模型在自己的硬件芯片上的跑分结果,并且由MLCommons收集并验证后统一公布在网站上。这样一来,不同硬件芯片平台在做AI模型跑分的时候,就可以有一个统一的模型,也可以直接相互比较。

1.3 涵盖范围

    涵盖了图像分类(ResNet)、医学影像分割(U-Net3D)、目标物体检测(SSD)、目标物体检测(Mask R-CNN)、语音识别(RNN-T)、自然语言理解(BERT)、智能推荐(DLRM)以及强化机器学习(Minigo)8类AI应用场景。 

1.4 名称解释

    SUT:被测系统(System under test)

    mAP:平均精度均值(Mean average precision)

    mIoU:平均交并比(Mean intersection over union)

    FPS:每秒帧率(Frame per second)

    FAR:误识率(False accept rate)

    FRR:拒识率(False reject rate)

    IR:识别正确率(Identification rate)

    WER:词错误率(Word error rate)

    SER:句错误率(Sentence error rate)

2、测试指标与测试方法

2.1 喂数据方式(MLPerf--Loadgen)

Scenario

(场景)

Query Generation

Duration

Samples/query

Latency Constraint

Tail Latency

Performance Metric

Single stream

LoadGen sends next query as soon as SUT completes the previous query:串行方式,query一次完整再下一次

1024 queries and 60 seconds

1

None

90%

90%-ile measured latency

Multiple stream

LoadGen sends a new query every latency constraint if the SUT has completed the prior query, otherwise the new query is dropped and is counted as one overtime query

1、query 的samples随机

2、 如果超过latency constraint,query完成不会立刻query即drop,而是下个周期再query,导致总的耗时变长

270,336 queries and 60 seconds

Variable, see metric

Benchmark specific

99%

Maximum number of inferences per query supported

Server

LoadGen sends new queries to the SUT according to a Poisson distribution:根据泊松分布query

270,336 queries and 60 seconds

1

Benchmark specific

99%

Maximum Poisson throughput parameter supported

Offline

LoadGen sends all queries to the SUT at start:极限性能(极限处理能力)

1 query and 60 seconds

At least 24,576

None

N/A

Measured throughput

2.2 测试指标

      最大吞吐量性能、平均前向推理速率、前向推理时延、功耗、能效比、模型推理准确度等

3、测试标准

4、测试指标解释

     待完善

5、 训练芯片测试指标与方法

    https://blog.csdn.net/huangblog/article/details/119646718

  • 2
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值