卷积层
以上图的模型为例,卷积层的参数个数只有(卷积核的宽*卷积核的高+1)*输出通道数,
其中括号内卷积核的宽*卷积核的高是属于权重值的,1是属于偏置值的。
下面只用权重估算
如第一层卷积层只有7*7*3*64=9408个参数
第二层卷积层只有3*3*64*192=110592个参数
全连接层
而全连接层则是将延展成一维的特征图
维度为(特征图宽*特征图高*输入通道数)*1
直接乘上维度为 (特征图宽*特征图高*输入通道数)*全连接层输出通道数 的矩阵 ,最终这个矩阵参数量为(特征图宽*特征图高*输出通道数)*全连接层输出通道数
以vgg为例
fc1最终参数量为7*7*256*4096*2=102,760,448 即图中的103m
这里乘的2是maxout层,maxout p为几,参数量就变为几倍,这个之后再写一篇文章讲(其实是这个图里错了,那个博主压根就不是用的vgg,vgg直接512个卷积核,根本没用256个卷积核加p为2的maxout,如下图)
fc2最终参数量为4096*4096*2=33,554,432 即图中的34m(实际是4096*4096=16777216)
结论
整体参数量只有140m,但是fc1,fc2就占了137m
所以参数量大的罪魁祸首是谁就不用我多说了8