Gradient-Based Learning Applied to Document Recognition (LeNet) 论文阅读笔记
论文中的相关问题
1.为什么卷积神经网络具有平移不变性
原文如下:
Convolutional networks combine three architectural ideas to ensure some degree of shift, scale, and distortion in-variance:
- local receptive fields;
- shared weights (orweight replication);
- spatial or temporal subsampling.
卷积网络结合了3个架构设计特点来保证一定程度上的平移、尺度和旋转不变性:
-
局部感受野(local receptive fields);
-
权重共享(weight sharing);
-
空间下采样(spatial sub-sampling)。
- 卷积:
无论鼻子和眼睛的特征在左下角还是右上角,在利用卷积核对图像进行扫描的过程中,总会出现卷积的响应最大的情况,即表示找到了这样的特征。 - 池化:
比如最大池化,它返回感受野中的最大值,如果最大值被移动了,但是仍然在这个感受野中,那么池化层也仍然会输出相同的最大值。 - 激活:
经过池化后,该特征对应的神经元仍会被激活。这就有点平移不变的意思了。
2.LeNet网络结构
3.如何理解权值共享
- 权值共享就是我的每个卷积核(获得的每一个特征)里面的神经元对应的参数都是相同的,而且阈值也是共享的。
- 例如输入的图片大小是7*7,如果想获得两个特征,可以用两个3*3卷积对输入图片进行作用得到两个大小为5*5的feature map。每一个feature map中的神经元都对应着输入图像中一个3*3的区域,则每个神经元对应的权值个数是3*3=9,由于对一个feature map而言,对应的是同一个卷积核,因此一个feature map的所有神经元共享权值,两个feature map就有2*9=18个权值。
- 一个神经元对应一个阈值,那么一个特征图也就是一个阈值,两个特征图也就是两个阈值。
reference: (https://www.quora.com/How-is-a-convolutional-neural-network-able-to-learn-invariant-features)