主要创新点:
1. MLPCONV
NIN结构的mlp conv结构是将多层感知机(MLP)和卷积(CONV)结合在一起,即在传统的卷积层之间加上了MLP层,一个卷积核对原图的同一片相同大小区域卷积得到一个数,96个卷积核同样的操作得到96个数,即96个通道上同一个位置的一个元素,然后将这96个元素做一下全连接,又得到96个元素。相当于在对每一个patch的不同卷积核结果做了一个MLP。一个卷积核与原图同样尺寸区域进行卷积(相乘相加)得到一个元素,该区域即为一个patch,不同通道上得到的元素融合即得到输出图像的一个元素。即输出图像的每一个元素 为 卷积核与上一层每一个通道上对应的patch先卷积再相加得到。
mlp conv另一种理解方式:在原来每一层输出后加一个 与通道数量相同1 x 1 的卷积层。见上图MLPCONV与CNN对比。作用:
Mlpconv等价于1*1的卷积层。
其实相当于在通道之间做了跨通道聚合的特征融合。进一步可以起到降维(或者升维)的作用,起到减少参数的目的 .
每一层卷积之后加一个激活函数,比原结构多了一层激活函数,增加了结构的非线性表达能力。
2. Global Average Pooling
整个featuremap平均池化结果作为softmax 输入,相较于Alexnet全连接的优点:
减少参数量(1000x1000+1000x6x6),从而减轻过拟合
求和平均综合了整个featuremap的所有信息
不限输入图片的大小