网络的模型的参数计算(杂乱)：

最新推荐文章于 2023-11-29 13:22:27 发布

又是花落时

最新推荐文章于 2023-11-29 13:22:27 发布

阅读量697

点赞数

分类专栏： pytorch 学习文章标签：深度学习

本文链接：https://blog.csdn.net/u013996948/article/details/120693931

版权

pytorch 学习专栏收录该内容

6 篇文章 0 订阅

订阅专栏

本文深入探讨了卷积神经网络（CNN）的局部感受野和LeNet-5网络的参数计算，展示了线性层的概念。接着，详细介绍了长短期记忆网络（LSTM）的工作原理，以及其参数量的计算。此外，文章还讲解了Attention机制，特别是自我注意力在信息处理中的应用，并分析了Transformer中的mask机制。内容涵盖了深度学习的基础知识和关键组件。

摘要由CSDN通过智能技术生成

https://www.cnblogs.com/wushaogui/p/9176617.html

CNN 卷积层：

线性层：

CNN 卷积层：

LeNet-5

在这里插入图片描述

局部感受野（local receptive fields）：图像的空间联系是局部的，就像人通过局部的感受野去感受外界图像一样，每个神经元只感受局部的图像区域，然后在更高层，将这些感受不同局部的神经元综合起来就可以得到全局的信息了。

LeNet-5网络

模型大小计算：

C1： 5 x 5 x 20 = 500，5x5卷积核， 20个feature map输出，20个kernel--->（28-5+1）/1 = 24 pool 2*2 ------ P1 :24 / 2 = 13
C2： 20x 5 x 5 x 50 = 25000 ，20维度输入，则20x5x5 kernel，50个feature map输出，即相当于20通道的图像输入，则需要20x5x5的kernel来卷积乘，50个这样的卷积核操作得到50个feature map，50个kernel----> (12-5+1)/1 = 8 P2: 8 / 2 = 4

F1： 50x4x4x500 = 400000，50维度特征图输入，全连接，每个点做卷积乘，则kernel大小为50x4x4，共500个feature map输出，500个kernel
F2 : 500x1x1x10 = 5000，500维度特征图输入，全连接，kernel大小为500x1x1，共10个feature map输出，10个kernel

总参数：500 + 25000 + 400000 + 5000 + （20 + 50 + 500 + 10） = 431080

用4bytes的float类型来存储参数，则总的参数量大小为：

431080 x 4 = 1724320 ≈ 1683.90625kb ≈ 1.64M
对比实际LeNet-5网络基于caffe训练出来的模型大小为：1.64 MB (1,725,025 字节)，基本接近，因为模型中可能还带有附加特性参数。

线性层：

LSTM:

这里的实际上是一个句子的 embedding（不考虑 batch 维度），shape 一般为 [seq_length, embedding_size]。图中的就是 cell，中的词依次进入这个 cell 中进行处理。可以看到其实只有这么一个 cell，所以每次词进去处理的时候，权重是共享的，将这个过程平铺展开，就是下面这张图了：

始终要记住这么多都是一样的，权重是一样的，到是一个个词，每一次的处理都依赖前一个词的处理结果，这也是 RNN 系的网络难以像 CNN 一样并行加速的原因。同时，这就像一个递归过程，如果把求的公式展开写， A 里的权重记为 [公式] ，那么就会发现需要个相乘，即，这是非常恐怖的：

LSTM的神经元个数 - 好奇不止，探索不息 - 博客园

总体来说，假设lstm层的一个时间点上的输入特征长度是n，输出长度是m，那么参数量是4*((n+m)*m+m)。

from keras.layers import LSTM
from keras.models import Sequential

time_step=13
featrue=5
hidenfeatrue=10

model=Sequential()
model.add( LSTM(hidenfeatrue,input_shape=(time_step,featrue)))
model.summary()

输出：

Layer (type) Output Shape Param #
=====================================================================
lstm_8 (LSTM) (None, 10) 640
=====================================================================
Total params: 640
Trainable params: 640
Non-trainable params: 0

Attention：

从矩阵角度理解self-attention - 知乎:

仅定义q和k两个够吗？可能也还是不够的。找出来的关系是要用的，不用等于白找。权重a 是要对输入信息做加权，才能体现找到的关系的价值的。那跟输入直接加权行吗？这么做也不是不行，就是显得直接和生硬了点。所以又定义了个v。要知道，v和q、k一样，都是通过系数矩阵对输入a做乘法得到的。所以定义了个v大概等于又对a加了一层可以学习的参数，然后对经过参数调整后的a再去做加权、把通过注意力机制学到的关系给用上。所以，通过a和v的乘法进行加权操作，最终得到输出o。
链接：https://www.zhihu.com/question/325839123/answer/1903376265

假如一个男生B，面对许多个潜在交往对象B1，B2，B3...，他想知道自己谁跟自己最匹配，应该把最多的注意力放在哪一个上。那么他需要这么做：
1、他要把自己的实际条件用某种方法表示出来，这就是Value；
2、他要定一个自己期望对象的标准，就是Query；
3、别人也有期望对象标准的，他要给出一个供别人参考的数据，当然不能直接用自己真实的条件，总要包装一下，这就是Key；
4、他用自己的标准去跟每一个人的Key比对一下（Q*K），当然也可以跟自己比对，然后用softmax求出权重，就知道自己的注意力应该放在谁身上了

单头 head 的attention:

Mask : 理解

对于Transformer中的mask理解_weixin_44729115的博客-CSDN博客

1. encoder mask:

在这里插入图片描述

首先确定mask的形状是 batch_size*seq_length
对于小于最大长度的句子进行补0操作，对于大于最大长度的句子进行截断操作。

在这里插入图片描述

2. decoder端的mask

在这里插入图片描述

decoder的mask形状是一个下三角矩阵，解码器在翻译单词时只能看到前面已经翻译的单词，不能看到后面的答案，所以使用一个下三角矩阵进行遮盖，每一次解码只给解码器看前面的单词。

def subsequentmask(size):
    "Mask out subsequent positions."
    attn_shape = (1, size, size)
    subsequent_mask = np.triu(np.ones(attn_shape), k=1).astype('uint8')
    return subsequent_mask == 0

print(subsequentmask(5))

>>

[[[ True False False False False]
  [ True  True False False False]
  [ True  True  True False False]
  [ True  True  True  True False]
  [ True  True  True  True  True]]]