一文弄懂FFN/RNN/CNN参数量计算

赵卓不凡

已于 2024-04-08 21:32:06 修改

阅读量1.5k

点赞数 21

分类专栏：深度学习文章标签： rnn cnn 人工智能

于 2024-04-08 21:00:19 首次发布

本文链接：https://blog.csdn.net/sgzqc/article/details/137521663

版权

深度学习专栏收录该内容

59 篇文章

订阅专栏

1. 引言

为什么我们需要了解计算深度学习模型中的参数数量？我们一般情况下是不需要这么做的。但是，如果我们需要减小模型的大小，甚至缩短模型推理所需的时间，那么了解模型量化前后的参数数量就会派上用场。

计算深度学习模型中的可训练参数数被认为太琐碎了，因为往往很多代码框架里已经可以帮我们自动做到这一点。但我想把我之前的笔记放在这里，供大家学习参考。

闲话少说，我们直接开始吧！

2. 前置条件

为了详细说明，本文重点介绍三类网络训练参数的计算方式：

Feed-Forward Neural Network (FFN)
Recurrent Neural Network (RNN)
Convolutional Neural Network (CNN)

同时，我将使用 Keras 的 API 构建模型，以方便模型设计和编写简洁的代码，因此让我们在此快速导入相关的库函数：

from keras.layers import Input, Dense, SimpleRNN, LSTM, GRU, Conv2D
from keras.layers import Bidirectional
from keras.models import Model

使用上述库函数在建立模型后，通过调用 model.count_params()来验证有多少参数用以训练。

3.前馈神经网络–FFN

前馈神经网络相对比较简单，多为全连接层构成的网络结构，我们先来看计算公式：
我们不妨假设，输入维度为i,隐藏层大小为h,网络输出维度为o,那么一个隐藏层的参数的计算公式为：

num_params = connections between layers + biases in every layer
           =(i*h + h) + (h* o  + o)

我们先来看个图例，如下：
在这里插入图片描述

观察上述图例中，我们知道i=3 , h=5 , o=2, 带入上述公式，得到训练参数量为:

num_params =  3X5 + 5 + 5X2 + 2 = 32

我们用代码实现上述过程，如下：

input = Input((None, 3))
dense = Dense(5)(input)
output = Dense(2)(dense)
model = Model(input, output)
print(f"train params of the model is {model.count_params()}")

运行上述代码，得到结果如下：

在这里插入图片描述

4.循环神经网络–RNN

前馈神经网络相对简单，我们接下来分析循环神经网络的参数计算方式，这里假设
g: 一个单元中的 FFN 数量(一般来说RNN结构中FFN数量为1，而GRU结构中数量为3个，LSTM结构中FFN数量为4个)
h:隐藏单元的大小
i:输入大小

对于每个 FFN，最开始输入状态和隐藏状态是concat在一起的，因此每个 FFFN 具有(h+i)*h + h 个参数。所以总的参数量的计算公式为：

num_params = g × [(h+i)*h + h]

我们来看以下LSTM的例子，含有2个隐藏单元，输入维度为3，图示如下：
在这里插入图片描述
观察上图，我们将g=4 h=2 i=3带入上式，得到上述LSTM的参数量为：

num_params = g × [(h+i)*h + h] = 4 × [(2+3)*2 + 2] = 48

我们用代码验证上述过程，如下：

input = Input((None, 3))
lstm = LSTM(2)(input)
model = Model(input, lstm)
print(f"train params of the model is {model.count_params()}")

结果如下：
在这里插入图片描述

5.卷积神经网络–CNN

对于卷积神经网络，我们主要观察卷积层，这里对于每一层的卷积，我们假设输入特征图的通道数为i,滤波器的尺寸为f，输出的通道数(等于滤波器的个数)为o，则对应卷积层的参数量计算公式为：

num_params = weights + biases = [i × (f×f) × o] + o

我们来看个例子，对灰度图像使用使用 2×2 滤波器，输出为 3 个通道，图示如下：
在这里插入图片描述
观察上图，我们知道i=1,f=2,o=3带入上式，得到结果为：

num_params = [i × (f×f) × o] + o = [1 × (2×2) × 3] + 3 = 15

我们用代码进行验证，如下所示：

input = Input((None, None, 1))
conv2d = Conv2D(kernel_size=2, filters=3)(input)
model = Model(input, conv2d)
print(f"train params of the model is {model.count_params()}")

得到结果如下：
在这里插入图片描述

6.复杂例子

由于卷积神经网络多在计算机视觉领域得到应用，我们再来看个稍微复杂点的例子，针对2 个通道输入使用3个2X2的卷积核进行卷积操作，图示如下：在这里插入图片描述

观察上图，我们知道i=2,f=2,o=3带入上式，得到结果为：

num_params = [i × (f×f) × o] + o = [2 × (2×2) × 3] + 3 = 27

我们用代码进行验证，如下所示：

input = Input((None, None, 2))
conv2d = Conv2D(kernel_size=2, filters=3)(input)
model = Model(input, conv2d)
print(f"train params of the model is {model.count_params()}")