AI芯片的性能评价

最新推荐文章于 2024-07-26 23:49:41 发布

牧羊女说

最新推荐文章于 2024-07-26 23:49:41 发布

阅读量4.3k

点赞数 2

分类专栏： AI芯片文章标签：人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/DeliaPu/article/details/127657702

版权

AI芯片专栏收录该内容

8 篇文章

订阅专栏

近年来，产业界和学术界涌现出了大量不同架构的AI芯片，那么，该如何衡量和评价这些芯片的性能呢？具体可以应用哪些指标？

一. 性能评价指标

我们在谈AI芯片性能的时候，首先想到的一个指标就是算力，也就是每秒操作数，通常用TOPS（Tera Operations Per Second）来表示，例如NVIDIA的Orin芯片可以达到200TOPS的算力。

但单纯看算力，并不能了解芯片的能效，尤其是对于边缘端芯片，低功耗是一个刚需指标。因此，通常使用单位功率下的每秒操作数来衡量芯片的能效，常用单位为TOPS/W。仍然拿Orin举例，200 TOPS算力下，功耗45W的话，能效为200TOPS/45W=4.44TOPS/W。

下图给出了各种不同AI芯片的能效，箭头表示高能效是未来的发展方向。

除了每秒操作数和能效，AI芯片的性能衡量还应包含以下几个指标：

1. 时延

时延通常与AI神经网络处理的数据大小(包括Batch size)有关。

2. 功耗

除了芯片中计算单元的功率消耗，也包括片上存储和片外存储的功率消耗。

3. 芯片成本/面积

裸片面积对成本有直接影响，取决于所使用的工艺节点以及片上存储的大小。该指标在边缘侧应用中非常重要。

4. 精度

推理精度，体现了该AI芯片的输出质量。

5. 吞吐量

单位时间内能够处理的数据量。对于视频应用来说，通常用分辨率和FPS（Frames Per Second，也就是帧率）来表示，大的吞吐量能够保证视频画面的连续性。提高吞吐量的方法包括：提高时钟频率、增加处理单元数量、提高处理单元的利用率等。

6. 可扩展性

可扩展性表示是否可以通过扩展处理单元及存储器来提高计算性能，例如据说4个Orin芯片级联可以达到1000 TOPS的性能。

7. 灵活性和适用性

灵活性和适用性决定了相同的设计是否可以应用在不同的领域，以及芯片是否可以运行不同的深度学习模型。

8. 热管理

随着单位面积中的晶体管数量不断增加，芯片工作时的问题急剧升高，需要有较好的热管理方案。常见的散热方法为风扇散热，谷歌的TPUv3则用到了最新的液体冷却技术。

从AI芯片设计的角度来说，要达到较好的性能和能效，最好是对架构级、算法级和电路级三个层面进行跨层设计，以实现对各种指标的总体权衡。

当然，使用领先的工艺节点(当前是5nm或3nm)对于达到以上指标非常重要，它是AI芯片保持领先的关键条件。

二. 性能评价工具

目前，还没有特别成熟的通用评估系统来评价AI芯片的性能，但已经有几款工具开发了出来，起到了领先作用。

1. Accelergy

Accelergy主要用于评估架构级的能耗，对处理单元数量、存储器容量、片上连接网络的连接数量及长度等参数进行评估。

2. Timeloop

Timeloop是一个DNN的映射工具和性能仿真器，根据输入的架构描述，评估出这个AI芯片的运算执行情况。

3. MLPerf

MLPerf是由谷歌、英伟达、英特尔、AMD、哈佛大学、斯坦福大学等产业界和学术界共同组成的一个基准测试联盟，它提供了内容广泛的基准套件，用于衡量深度学习框架、AI芯片以及云平台的性能。MLPerf在2019年11月之后的版本包含训练基准和推理基准，这些基准提供了各领域工作负载的实施参考，包括视觉、语音、自然语言处理、推荐系统等。

MLPer每年定期发布基准测试数据，其结果被国际社会广泛认可。

参考资料：

1.《AI芯片：前沿技术与创新未来》

2. MLPerf 人工智慧基準 | NVIDIA

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。