前言
最近学完了吴恩达深度学习的视频课,根据师兄的建议,打算读一些网络结构方面的论文。LeNet本来是一篇很老的论文,开始只是抱着了解历史的心态,看了下第二部分的内容。没想到整体读下来,对CNN的基本原理有了更深的认识,收获还是蛮大的,打算开始写博客记录一下论文的阅读心得。
科研小白第一次写博客,认识还很浅薄。下面这篇博客在阅读的过程中给了我很大帮助,表示感谢!另附上论文的链接
LeNet论文的翻译与CNN三大核心思想的解读
LeNet原文下载传送门
LeNet论文第二部分阅读笔记
论文第二部分的题目是: II. CONVOLUTIONAL NEURAL NETWORKS FOR ISOLATED CHARACTER RECOGNITION
下面是论文一些思想的摘录,加入了一些我自己的理解:
为什么对图像要用卷积神经网络而不是全连接:
1、图像往往尺寸很大,如果把图像看成行向量作为输入层,即使第一层全连接选择尽量少的神经元,第一层的参数也很多,导致整体参数都很多,计算量很大,模型也只适用于小图像。
2、全连接的主要缺点是,对于图像来说,不具有平移和局部失真的不变性(全连接网络每个神经元感受到的都是整幅图像,对平移,形变不具有不变性。只要对同一幅图像加入一些扰动,输出就会不同),而卷积神经网络可以通过参数共享实现位移不变性(shift invariance)。
3、全连接的另一个缺点是,完全忽略了输入的拓扑结构(将一幅图像转换为行向量,行向量特征的顺序其实是可以打乱的,但是应该所有图像转换为行向量打乱的方式要相同。在不改变神经元的输出的前提下,输入数据可以是任意的顺序),这样训练网络其实对结果没有影响。但是,对于图像来说,一个像素与其相邻的像素往往是具有空间上的相关性的,那么可以从这个空间相关性出发提取到图像的