MIT-TinyML学习笔记【0】Neural Network Efficiency Metrics

最新推荐文章于 2024-09-16 13:36:19 发布

dayelang.

最新推荐文章于 2024-09-16 13:36:19 发布

阅读量103

点赞数

文章标签：学习笔记深度学习

本文链接：https://blog.csdn.net/qq_41977060/article/details/131719376

版权

Latency,Energy,Storage
计算延迟,消耗的能量,存储

Latency

由于数据搬运和计算可以重叠，所以一般而言Latency等于计算和存储中耗时的最大值

Energy Consumption

一次数据搬运消耗的能量等价于200次乘加运算！！
这就体现流式架构的重要性了，读取DRAM实在是能耗太大了

Memory-Related

Parameters 计算

不同层的参数量计算方法如下（令 batchsize n = 1）

对于全连接层，每个输入要连接到所有hidden layer的神经元上，即参数量为输入通道数乘以输出通道数
对于卷积层，则为输入通道x输出通道xkernel size
对于分组卷积，由于每个卷积核只对应部分输入通道，相当于卷积核的kernel size变小了
$c_{o}\times c_{i}\times k_{h}\times k_{w} / g$
对于深度卷积， $g=c_i$ 进一步减少参数数量
$=c_{o}\times c_{i}\times k_{h}\times k_{w} / g =c_{o}\times k_{h}\times k_{w}$

示例：AlexNet参数计算

Model Size 计算

$Number-of-Parameters\cdot Bit Width$

这里又体现出了Quantization的重要性
同样参数量的情况下，32bits和4bits的模型差的不是一点半点

Number of Activations

MobileNet这种经典的轻量化模型，对于ResNet而言参数量几乎是1/5，
然而，peak activation却是其1.8倍

对于推理而言，影响最大的是Peak Memory消耗，因为不管其它Memory消耗有多低，最大的内存占用决定了选型（毕竟如果装不下peak 这层你就没法算）
这张图就是MCUNet的motivation！

（x轴是layer id）
产生不同层对于activation和weight memory的规律变化的根本原因很简单：前面的图像分辨率大，卷积通道数少；后面层分辨率小，但卷积通道数量激增

Computation-Related

MACs计算

MACs定义：n次点乘后累加进行m次
即计算每一个输出，都需要n次乘累加
例如：对于矩阵乘法而言，输出为nxm，每个输出需要进行k次乘法并累加

不同层的MACs计算方法如下（n=1）

这里主要注意跟参数量parameters计算的差异

对于全连接层fc而言，每个synapse只计算一次乘累加，因此MACs计算与parameters相同
（便于理解和记忆的方法是，先看有多少个输出，然后考虑计算每个输出需要计算多少次乘累加）
对于卷积层：输出元素个数为 $h_{o}\cdot w_{o}\cdot c_{o}$ ，为了得到每一个output需要计算 $c_{i}\cdot k_{h}\cdot k_{w}$ 次，即卷积核的kernel size 乘上输入通道数（卷积核的深度）
对于分组卷积：输出元素与普通卷积相同，但是计算output时使用的kernel元素个数减少g倍（groups数量）
对于深度卷积：同理， $c_{i}/g=1$