复习
此网络结构与LeNet5很像,LeNet-5是Yann LeCun在1998年设计的用于手写数字识别的卷积神经网络,是早期卷积神经网络中最有代表性的实验系统之一。参考资料:卷积神经网络的网络结构——以LeNet-5为例_strint的专栏-CSDN博客_lenet5卷积神经网络结构
GoogLeNet:不是串行结构的CNN
- 蓝色:卷积,红色:池化,黄色:softmax,other:拼接或者其他
- 减少代码冗余:函数/类,图中蓝蓝红 四个蓝 重复多次,考虑变成一块
- 蓝蓝红 四个蓝叫 Inception 套娃
Inception module
- 一些超参数(比如kernel大小)很难确定,googlenet出发点是不知道哪个参数好,就把集中卷积都用,把他们结果挪在一起,哪种参数好他的权重就会变大,然后通过训练自动找到最优的几种组合
- 3*3 Conv
- Concatenate 把张量沿着通道拼接在一起
- average pooling 均值池化,要保证四个通道w h 一样
- 1*1卷积,表示卷积核1*1,个数取决于输入张量的通道,可以跨越不同通道相同位置元素的值(信息融合)最主要:改变通道数
- (先padding)192*28*28经过5*5卷积变成32*28*28需要经过5^2*28^2*192*32, 卷积核大小5*5,与每个像素相乘28*28,然后乘通道数192,运算做了32次才能得到输出通道,共120million次
- 降低运算量:卷积核大小*像素*输入通道*输出通道,1*1卷积变成16*28*28的张量,在通过5*5的卷积变成32*28*28,运算量:1^2*28*28*192*16+5*5*28*28*16*32=12million
- 有时候把1*1卷积称为network in network
inception module 的代码实现:
#第一个分支 池化分支branch——pool
#输出通道24,1*1卷积
self.branch_pool=nn.Conv2d(in_channels,24,kernel_size=1)
#forward
branch_pool=F.avg_pool2d(x,kernel_size=3,stride=1,padding=1)#可以保证average之后大小不变
branch_pool=self.branch_pool(branch_pool)#
#第二个分支branch1x1,1*1分支,16通道,kernel size=1
self.branch1x1=nn.Conv2d(in_channels,16,kernel_size=1)
branch1x1=self.branch1x1(x)
#第三个分支branch5x5分为两个模块, 1*1卷积,5*5,保证图片大小不变padding设成2,通道数输出16、24
self.branch5x5_1=nn.Conv2d(in_channels,16,kernel_size=1)
self.branch5x5_2=nn.Conv2d(16,24,kernel_size=5,padding=2)
branch5x5=self.branch5x5_1(x)
branch5x5=self.branch5x5_2(branch5x5)
#第四个分支branch3x3,分成三块,一个1x1,3x3,3x3
self.branch3x3_1=nn.Conv2d(in_channels,16,kernel_size=1)
self.branch3x3_2=nn.Conv2d(16,24,kernel_size=3,padding=1)
self.branch3x3_3=nn.Conv2d(24,24,kernel_size=3,padding=1)
branch3x3=self.branch3x3_1(x)
branch3x3=self.branch3x3_2(branch3x3)
branch3x3=self.branch3x3_3(branch3x3)
- 沿着通道数把四个块拼接