从直观上讲,感受野就是视觉感受区域的大小。在卷积神经网络中,感受野的定义是 卷积神经网络每一层输出的特征图(feature map)上的像素点在原始图像上映射的区域大小。
在第一层卷积面,感受野的大小等于卷积核的大小,通过卷积核在输入特征映射上滑动卷积,得到输出特征映射,如果以彩色图片为例(彩色图片有长、宽、深度三个维度,深度有红绿蓝三层),卷积核也是三维张量,第一层卷积核在红色输入特征滑动提取到特征一,第二层卷积核在绿色输入特征滑动提取到特征二,第三层卷积核在蓝色输入特征滑动提取到特征三,然后相加得到一个输出特征映射。如图,假设卷积核的大小是3,每次滑动的步长为1,输出特征映射红点处神经元对应的感受野大小为3,它所映射的信息就是输入特征映射的红色区域的信息。
从第二层卷积开始,一个神经元所映射的信息不再是卷积核大小所对应的区域的信息,如下图所示,从这一层开始就需要反着推,第二层输出红点处的神经元映射上层输出红色区域的信息,第一层输出红色区域映射输入层红色区域的信息,这时,第二层的红点神经元就映射着输入层的红色区域的信息,它的感受野大小变为5,假设滑动步长为1。依次类推
假设下采样层的大小设置为2x2,如下图所示,采样层所对应的感受野为10。如果要保证输入特征映射与输出特征映射相同,可以采取输入特征映射补零操作。
不同的卷积核提取的特征不同,假设输入层的输入特征深度为3,提取特征的卷积核的深度为3,假设有8个不同的卷积核,每层卷积核与输入层分别卷积,然后叠加,再加上偏置生成新的特征映射,8个卷积核就会输出8个特征映射,第二层的卷积核的深度变为8,假设第二层有10个卷积核,那么每层卷积核分别于输入的8个特征映射卷积,然后叠加生成新的特征映射,10个卷积核生成10个新的特征映射,下一层的卷积核深度也就变为10,以此类推。