首先从卷积计算原理着手,一个5*5的输入,经过一个3*3的滤波器滑动9次,输出一个3*3的数据。输出数据的每个元素都对应5*5的9个窗口,再在输出的3*3数据上使用一个3*3的滤波器,可以得到一个数据,对应的是上一个3*3数据。可见,最后得到的数据是两次观察5*5数据得到的,与用5*5的滤波器观察一次数据可以到达到同样的效果。
VGG就使用此思想,用小滤波器卷积层代替大滤波器卷积层,那为什么这样会减少参数量呢?
原文如下:
为了便于理解,用代表输入通道数,代表输出通道数。输入通道数和滤波器通道数相同,首先用3*3的卷积核滑动25次生成一个5*5的输出数据,对一个input,卷积核不变,所以参数到目前为 *3*3。再用一个3*3的卷积核滑动9次,生成一个3*3的数据,到这参数为 *3*3*2。然后用一个3*3的卷积核覆盖,参数量变为