【学习笔记】神经网络的计算量和参数量估计

最新推荐文章于 2024-01-08 01:24:57 发布

Hung武

最新推荐文章于 2024-01-08 01:24:57 发布

阅读量1.2k

点赞数

分类专栏：学习记录深度学习文章标签：深度学习

本文链接：https://blog.csdn.net/qq_31478771/article/details/113854651

版权

学习记录同时被 2 个专栏收录

52 篇文章 1 订阅

订阅专栏

深度学习

27 篇文章 1 订阅

订阅专栏

本文详细探讨了衡量GPU运算能力的FLOPS和MACC指标，以及它们在全连接层、激活函数（ReLU、Sigmoid、Tanh）、LSTM和卷积层中的计算量和参数量计算。此外，还介绍了深度可分离卷积和BatchNormalization的计算特点，以及池化层和Concate层的作用。通过对这些关键计算单元的分析，为理解和优化深度学习模型的效率提供了基础。

摘要由CSDN通过智能技术生成

评估计算量指标

每秒浮点操作次数FLOPS（FLoating point OPerations per Second），来衡量GPU的运算能力。
乘加数MACC（Multiply-ACCumulate operation），或者叫MADD，来衡量模型的计算量。

模型最终的的速度，不仅仅是和计算量多少有关系，还和诸如内存带宽、优化程度、CPU流水线、Cache之类的因素也有很大关系。

全连接层计算量和参数量估计

对于输入为 $I$ ，输出为 $J$ 的全连接层，其权重 $W$ 存储在 $\times J$ 的矩阵中。

计算量为 $\times J$ MACC 或 $\times J$ FLOPS。
它的参数分别是权重 $W$ 和偏置 $b$ ，所以参数量为 $\times J + J=(I+1) \times J$

激活函数计算量

激活函数没有参数，所以参数量为0。

ReLU计算操作为 $y=\max(x,0)$ ，所以对于输出为 $J$ 个神经元，计算量为 $J$ FLOPS。
Sigmoid计算操作为 $y=1/(1+\exp(-x))$ ，所以对于输出为 $J$ 个神经元，计算量为 $\times 4$ FLOPS。
Tanh计算操作为 $y=(\exp(x)-\exp(-x))/(\exp(x)+\exp(-x))$ ，所以对于输出为 $J$ 个神经元，计算量为 $\times 8$ FLOPS。

LSTM计算量和参数量估计

LSTM包含4个非线性变换，每一种非线形变换可视作一个全连接层。令 $E$ =embedding_size， $H$ =hidden_size。其中，第一层是 $x_i$ 和 $h_i$ 的结合，维度就是 $E + H$ ，第二层就是输出层，维度为 $H$ 。四个非线性变换中，还会对全连接层的输出进行激活函数计算（三个Sigmoid和一个Tanh）。除此之外，LSTM除了在四个非线性变换中的计算，还有三个矩阵乘法（不是点积）、一个加法、一个Tanh计算。

计算量为 $\times H \times 4$ MACC，或 $\times H \times 8 + H \times (H+20)$ FLOPS。
参数量为： $\times H +H) \times 4$

卷积层计算量和参数量估计

对于输入为 $H_{in} \times W_{in} \times C_{in}$ ，输出为 $H_{out} \times W_{out} \times C_{out}$ 的卷积层，输出的每一个像素对应了一个立体卷积核 $\times K \times C_{in}$ 。

计算量为 $\times K \times C_{in} \times H_{out} \times W_{out} \times C_{out}$ MACC。
参数量为 $\times K \times C_{in} \times C_{out} + C_{out}$ 。

深度可分离卷积层

深度可分离卷积分为两个操作，深度卷积和 $1\times1$ 常规卷积。

计算量为： $\times K \times C_{in} \times H_{out} \times W_{out} + C_{in} \times H_{out} \times W_{out} \times C_{out}=C_{in} \times H_{out} \times W_{out} \times (K \times K \times C_{out})$ 。
参数量为 $\times K \times C_{in} + 1 \times 1 \times C_{in} \times C_{out}=C_{in} \times (K \times K + C_{out})$ 。

Batch normalization

BN的计算操作为 $\gamma \frac{y-\mu}{\sqrt{\sigma^{2}+\epsilon}}+\beta$ 。每个通道都有自己的 $\gamma,\beta,\mu,\sigma^{2}$ ，因此，如果卷积层的输出中有 $C$ 个通道，则BN层将学习 $\times 4$ 个参数。

池化层

池化操作不使用点积，因此不能用MACC测量。这种附加层的计算量与卷积层、全连接层相比非常小，通常可以忽略不计。

Concate层

连接操作通常不需要单独的复制步骤，不需任何参数和计算。

Hung武

关注

0
点赞
踩
6

收藏

觉得还不错? 一键收藏
1
评论
【学习笔记】神经网络的计算量和参数量估计

评估计算量指标每秒浮点操作次数FLOPS（FLoating point OPerations per Second），来衡量GPU的运算能力。乘加数MACC（Multiply-ACCumulate operation），或者叫MADD，来衡量模型的计算量。模型最终的的速度，不仅仅是和计算量多少有关系，还和诸如内存带宽、优化程度、CPU流水线、Cache之类的因素也有很大关系。全连接层计算量和参数量估计对于输入为III，输出为JJJ的全连接层，其权重WWW存储在I×JI \times JI×J的
复制链接

扫一扫

专栏目录