一文弄懂FFN/RNN/CNN参数量计算

1. 引言

为什么我们需要了解计算深度学习模型中的参数数量?我们一般情况下是不需要这么做的。但是,如果我们需要减小模型的大小,甚至缩短模型推理所需的时间,那么了解模型量化前后的参数数量就会派上用场。

计算深度学习模型中的可训练参数数被认为太琐碎了,因为往往很多代码框架里已经可以帮我们自动做到这一点。但我想把我之前的笔记放在这里,供大家学习参考。

闲话少说,我们直接开始吧!

2. 前置条件

为了详细说明,本文重点介绍三类网络训练参数的计算方式:

  • Feed-Forward Neural Network (FFN)
  • Recurrent Neural Network (RNN)
  • Convolutional Neural Network (CNN)

同时,我将使用 Keras 的 API 构建模型,以方便模型设计和编写简洁的代码,因此让我们在此快速导入相关的库函数:

from keras.layers import Input, Dense, SimpleRNN, LSTM, GRU, Conv2D
from keras.layers import Bidirectional
from keras.models import Model

使用上述库函数在建立模型后,通过调用 model.count_params()来验证有多少参数用以训练。

3.前馈神经网络–FFN

前馈神经网络相对比较简单,多为全连接层构成的网络结构,我们先来看计算公式:
我们不妨假设,输入维度为i,隐藏层大小为h,网络输出维度为o,那么一个隐藏层的参数的计算公式为:

num_params = connections between layers + biases in every layer
           =(i*h + h) + (h* o  + o)

我们先来看个图例,如下:
在这里插入图片描述

观察上述图例中,我们知道i=3 , h=5 , o=2, 带入上述公式,得到训练参数量为:

num_params =  3X5 + 5 + 5X2 + 2 = 32

我们用代码实现上述过程,如下:

input = Input((None, 3))
dense = Dense(5)(input)
output = Dense(2)(dense)
model = Model(input, output)
print(f"train params of the model is {model.count_params()}")

运行上述代码,得到结果如下:

在这里插入图片描述

4.循环神经网络–RNN

前馈神经网络相对简单,我们接下来分析循环神经网络的参数计算方式,这里假设
g: 一个单元中的 FFN 数量(一般来说RNN结构中FFN数量为1,而GRU结构中数量为3个,LSTM结构中FFN数量为4个)
h:隐藏单元的大小
i:输入大小

对于每个 FFN,最开始输入状态和隐藏状态是concat在一起的,因此每个 FFFN 具有(h+i)*h + h 个参数。所以总的参数量的计算公式为:

num_params = g × [(h+i)*h + h]

我们来看以下LSTM的例子,含有2个隐藏单元,输入维度为3,图示如下:
在这里插入图片描述
观察上图,我们将g=4 h=2 i=3带入上式,得到上述LSTM的参数量为:

num_params = g × [(h+i)*h + h] = 4 × [(2+3)*2 + 2] = 48

我们用代码验证上述过程,如下:

input = Input((None, 3))
lstm = LSTM(2)(input)
model = Model(input, lstm)
print(f"train params of the model is {model.count_params()}")

结果如下:
在这里插入图片描述

5.卷积神经网络–CNN

对于卷积神经网络,我们主要观察卷积层,这里对于每一层的卷积,我们假设输入特征图的通道数为i,滤波器的尺寸为f,输出的通道数(等于滤波器的个数)为o,则对应卷积层的参数量计算公式为:

num_params = weights + biases = [i × (f×f) × o] + o

我们来看个例子,对灰度图像使用使用 2×2 滤波器,输出为 3 个通道,图示如下:
在这里插入图片描述
观察上图,我们知道i=1,f=2,o=3带入上式,得到结果为:

num_params = [i × (f×f) × o] + o = [1 × (2×2) × 3] + 3 = 15

我们用代码进行验证,如下所示:

input = Input((None, None, 1))
conv2d = Conv2D(kernel_size=2, filters=3)(input)
model = Model(input, conv2d)
print(f"train params of the model is {model.count_params()}")

得到结果如下:
在这里插入图片描述

6.复杂例子

由于卷积神经网络多在计算机视觉领域得到应用,我们再来看个稍微复杂点的例子,针对2 个通道输入使用3个2X2的卷积核进行卷积操作,图示如下:在这里插入图片描述

观察上图,我们知道i=2,f=2,o=3带入上式,得到结果为:

num_params = [i × (f×f) × o] + o = [2 × (2×2) × 3] + 3 = 27

我们用代码进行验证,如下所示:

input = Input((None, None, 2))
conv2d = Conv2D(kernel_size=2, filters=3)(input)
model = Model(input, conv2d)
print(f"train params of the model is {model.count_params()}")

得到结果如下:
在这里插入图片描述

7.总结

本文重点介绍了FFN/RNN/CNN等核心组件的参数量的计算方法,并给出了详细的图示和对应的代码实现。

您学废了嘛?

  • 21
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

赵卓不凡

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值