1. 引言
为什么我们需要了解计算深度学习模型中的参数数量?我们一般情况下是不需要这么做的。但是,如果我们需要减小模型的大小,甚至缩短模型推理所需的时间,那么了解模型量化前后的参数数量就会派上用场。
计算深度学习模型中的可训练参数数被认为太琐碎了,因为往往很多代码框架里已经可以帮我们自动做到这一点。但我想把我之前的笔记放在这里,供大家学习参考。
闲话少说,我们直接开始吧!
2. 前置条件
为了详细说明,本文重点介绍三类网络训练参数的计算方式:
- Feed-Forward Neural Network (FFN)
- Recurrent Neural Network (RNN)
- Convolutional Neural Network (CNN)
同时,我将使用 Keras
的 API 构建模型,以方便模型设计和编写简洁的代码,因此让我们在此快速导入相关的库函数:
from keras.layers import Input, Dense, SimpleRNN, LSTM, GRU, Conv2D
from keras.layers import Bidirectional
from keras.models import Model
使用上述库函数在建立模型后,通过调用 model.count_params()
来验证有多少参数用以训练。
3.前馈神经网络–FFN
前馈神经网络相对比较简单,多为全连接层构成的网络结构,我们先来看计算公式:
我们不妨假设,输入维度为i
,隐藏层大小为h
,网络输出维度为o
,那么一个隐藏层的参数的计算公式为:
num_params = connections between layers + biases in every layer
=(i*h + h) + (h* o + o)
我们先来看个图例,如下:
观察上述图例中,我们知道i=3
, h=5
, o=2
, 带入上述公式,得到训练参数量为:
num_params = 3X5 + 5 + 5X2 + 2 = 32
我们用代码实现上述过程,如下:
input = Input((None, 3))
dense = Dense(5)(input)
output = Dense(2)(dense)
model = Model(input, output)
print(f"train params of the model is {model.count_params()}")
运行上述代码,得到结果如下:
4.循环神经网络–RNN
前馈神经网络相对简单,我们接下来分析循环神经网络的参数计算方式,这里假设
g
: 一个单元中的 FFN 数量(一般来说RNN结构中FFN数量为1,而GRU结构中数量为3个,LSTM结构中FFN数量为4个)
h
:隐藏单元的大小
i
:输入大小
对于每个 FFN,最开始输入状态和隐藏状态是concat在一起的,因此每个 FFFN 具有(h+i)*h + h
个参数。所以总的参数量的计算公式为:
num_params = g × [(h+i)*h + h]
我们来看以下LSTM的例子,含有2个隐藏单元,输入维度为3,图示如下:
观察上图,我们将g=4 h=2 i=3
带入上式,得到上述LSTM的参数量为:
num_params = g × [(h+i)*h + h] = 4 × [(2+3)*2 + 2] = 48
我们用代码验证上述过程,如下:
input = Input((None, 3))
lstm = LSTM(2)(input)
model = Model(input, lstm)
print(f"train params of the model is {model.count_params()}")
结果如下:
5.卷积神经网络–CNN
对于卷积神经网络,我们主要观察卷积层,这里对于每一层的卷积,我们假设输入特征图的通道数为i
,滤波器的尺寸为f
,输出的通道数(等于滤波器的个数)为o
,则对应卷积层的参数量计算公式为:
num_params = weights + biases = [i × (f×f) × o] + o
我们来看个例子,对灰度图像使用使用 2×2 滤波器,输出为 3 个通道,图示如下:
观察上图,我们知道i=1,f=2,o=3
带入上式,得到结果为:
num_params = [i × (f×f) × o] + o = [1 × (2×2) × 3] + 3 = 15
我们用代码进行验证,如下所示:
input = Input((None, None, 1))
conv2d = Conv2D(kernel_size=2, filters=3)(input)
model = Model(input, conv2d)
print(f"train params of the model is {model.count_params()}")
得到结果如下:
6.复杂例子
由于卷积神经网络多在计算机视觉领域得到应用,我们再来看个稍微复杂点的例子,针对2 个通道输入使用3个2X2的卷积核进行卷积操作,图示如下:
观察上图,我们知道i=2,f=2,o=3
带入上式,得到结果为:
num_params = [i × (f×f) × o] + o = [2 × (2×2) × 3] + 3 = 27
我们用代码进行验证,如下所示:
input = Input((None, None, 2))
conv2d = Conv2D(kernel_size=2, filters=3)(input)
model = Model(input, conv2d)
print(f"train params of the model is {model.count_params()}")
得到结果如下:
7.总结
本文重点介绍了FFN/RNN/CNN等核心组件的参数量的计算方法,并给出了详细的图示和对应的代码实现。
您学废了嘛?