处理器运算能力单位

最新推荐文章于 2025-02-25 15:25:26 发布

rrr2

最新推荐文章于 2025-02-25 15:25:26 发布

阅读量3.1k

点赞数 2

分类专栏： FPGA

本文链接：https://blog.csdn.net/qq_35608277/article/details/104586985

版权

FPGA 专栏收录该内容

30 篇文章

订阅专栏

计算性能

模型对于硬件的要求，第一个是计算量，即一个深度学习模型需要多少次计算才能完成一次前馈.除了运算量之外，模型对内存带宽的需求也是影响实际计算所需要时间的重要参数。

如果把内存比做高速路，运算单元比作车道数，那么数据就是路上的车，而内存接口就是收费口，通过收费口的数据才能进入车道行驶（运算处理）。而内存带宽就是收费口的宽度了。收费口宽度越窄，则数据需要越多时间才能进入车道（处理单元）。正所谓「巧妇难为无米之炊」，如果带宽有限，那么即使车道再好、处理单元无限快，在大多数时候也是处理单元在空等数据，造成了计算力的浪费。

深度学习网络与Roofline模型

对内存需求定量分析

算法对于内存带宽的需求通常使用「运算强度(operational intensity，或称arithmetic

intensity)」这个量来表示，单位是OPs/byte。这个量的意思是，在算法中平均每读入单位数据，能支持多少次运算操作。运算强度越大，则表示单位数据能支持更多次运算，也就是说算法对于内存带宽的要求越低。所以，运算强度大是好事！

处理器运算能力单位
TOPS是Tera Operations Per Second的缩写，1TOPS代表处理器每秒钟可进行一万亿次（10^12）操作。

与此对应的还有GOPS（Giga Operations Per Second），MOPS（Million Operation Per Second）算力单位。1GOPS代表处理器每秒钟可进行一亿次（10⁹）操作，1MOPS代表处理器每秒钟可进行一百万次（10⁶）操作。TOPS同GOPS与MOPS可以换算，都代表每秒钟能处理的次数，单位不同而已。

在某些情况下，还使用 TOPS/W 来作为评价处理器运算能力的一个性能指标，TOPS/W 用于度量在1W功耗的情况下，处理器能进行多少万亿次操作。

举一个例子。

对于步长（stride）为1的3×3卷积运算，假设输入数据平面大小为64×64。简单起见，假设输入和输出feature都为1。
这时候，总共需要进行62×62次卷积运算，每次卷积需要做3×3=9次乘加运算，所以总共的计算次数为34596，而数据量为（假设数据和卷积核都用单精度浮点数2byte）：64x64x2（输入数据）+ 3x3x2（卷积核数据）= 8210 byte，所以运算强度为34596/8210=4.21。

如果我们换成1×1卷积，那么总的计算次数变成了64×64=4096，而所需的数据量为64x64x2 +1x1x2=8194。显然，切换为1×1卷积可以把计算量降低接近9倍，但是运算强度也降低为0.5，即对于内存带宽的需求也上升了接近9倍。因此，如果内存带宽无法满足1×1卷积计算，那么切换成1×1卷积计算虽然降低了接近9倍计算量，但是无法把计算速度提升9倍。

深度学习计算设备存在两个瓶颈，一个是处理器计算能力，另一个是计算带宽。如何分析究竟是哪一个限制了计算性能呢？可以使用Roofline模型。

在这里插入图片描述
典型的Roofline曲线模型如上图所示，坐标轴分别是计算性能（纵轴attainable GFLOPS/s）和算法的运算强度（横轴）。Roofline曲线分成了两部分：左边的上升区，以及右边的饱和区。