主要参考:点击打开链接
图像处理都是小 patchs ,比如28*28或者36*36之类,考虑如下情形,对于一副1000*1000的图像,即106,当隐层也有106节点时,那么W(1)(第一层链接权值)的数量将达到1012级别,为了减少参数规模,加快训练速度,CNN应运而生。CNN有几个重要的点:局部感知、参数共享、池化。
局部感知
(让一个小块对应一个神经元,计算出的一个像素就是一个神经元,一张图片由无数个神经元铺满)
一般认为人对外界的认知是从局部到全局的,而图像的空间联系也是局部的像素联系较为紧密,而距离较远的像素相关性则较弱。因而,每个神经元其实没有必要对全局图像进行感知,只需要对局部进行感知,然后在更高层将局部的信息综合起来就得到了全局的信息。每个隐含单元仅仅连接输入单元的一部分。例如,每个隐含单元仅仅连接输入图像的一小片相邻区域。对于一个输入与隐层均有 106 的网络,假设每个隐含单元只与 10*10 的输入区域相连接,这时参数的个数变为 10×10×10^6= 10^8,降低了10^4个数量级,这样训练起来就没有那么费力了。这一思想主要受启发于生物学里面的视觉系统结构。视觉皮层的神经元就是局部接受信息的(即这些神经元只响应某些特定区域的刺激),此外图像的像素也是局部时空相关的。
如下图所示,左边就是全连接网络,每个隐藏神经元与每个像素进行连接。右边就是部分连接网络,每个隐神经元只与一部分区域相连接。右边的图进行的便是卷积操作,该操作会生成一副 feature map 。