cs231n学习笔记——五.CNN 卷积神经网络

最新推荐文章于 2022-04-12 13:27:12 发布

谷雨·清明

最新推荐文章于 2022-04-12 13:27:12 发布

阅读量377

点赞数

分类专栏： cs231n 文章标签：卷积神经网络

本文链接：https://blog.csdn.net/qq_34734252/article/details/111039985

版权

cs231n 专栏收录该内容

6 篇文章

订阅专栏

5.1 卷积神经网络简介

要介绍CNN，TA选择从神经网络的历史开讲，从1957年的单层感知器讲起
在这里插入图片描述
到1960年的多层感知器

到1986年才明确出现反向传播的方法，然而这也只是个理论可行的方法，在实际应用中还是被打烂了头

而直到2006年，深层网络才被验证是初步可训练和使用的，但是也很受限制，需要谨慎的进行初始化，当时是采用受限玻尔兹曼机进行预训练
在这里插入图片描述
而直到2012年Hinton和他的学生Alex才使用DNN，分别在语音识别和图像识别领域做出了很惊艳的成果，而图像领域的成果就是早期的CNN，其极大的降低了图像分类的误差并维持了很不错的分类速度

卷积在图像上的应用还是追溯到可怜的脑袋插电猫猫
在这里插入图片描述
他们根据大脑中电信号找到了和视觉信息相关的皮层

在此基础上，还发现这部分是存在层级关系的。实验发现视觉刺激会对视觉链路中不同层产生不同的刺激，比如视觉信息会对初级皮层中的视网膜感受神经节造成中心辐射式的刺激，而其他的细胞可能对不同朝向的光以及视觉中目标的边缘产生反应，不同的细胞面向视觉信息中不同的特征产生反应，而这种将视觉信息解耦再在大脑中重组的过程，就成为了卷积神经网络诞生的思路基础
在这里插入图片描述
然后1980年就有日本老哥根据这种特点提出一种s-c层交替的网络结构，这种简单simple-复杂complex节点交替的结构显然要比全复杂节点构成的网络更好训练，同时也保证了一定的模型效果

然后就有了1998年的LeNet
在这里插入图片描述
然后有了2012年的AlexNet，结构上没有太大区别，只是节点更多，层数更深，从而可以解决复杂的图像分类问题

然后现在CNN就到处用了，包括图像的分类，重建，检测，分割等等

还被应用到了自动驾驶、人脸识别、视频分类、姿态检测、玩小游戏啥的，太多了，后面懒得截图了
在这里插入图片描述

5.2 卷积神经网络的结构

先从全连接层讲起，最简单神经网络的连接方式就是全连接，比如对于一个32323的图像输入，我们会把他展开成30721的数据输入，根据权重计算之后，输出就是一个单值，但事实上这样就失去了像素数据之间的空间关系，我们又不是不想保留空间关系，我们是木得办法，所以卷积层的出现提出了一种解决思路

卷积层是用一个过滤器filter作为权重，filter的最后维度和图像的最后维度相同，则可以将图像和filter进行卷积计算，即滑动点乘

然后用同样大小不同数值的filter分别计算出新的结果，这些结果就是卷积层对原始输入的初步计算

然后每层加上一个激活神经元（比如Relu），多叠几层，就是个CNN了

以VGG举例，可能浅层网络理解的是一些低阶语义，比如边缘之类的，而高层就在学习一些复杂语义，比如拐角或者斑点之类的（不知道在学啥了），总之从浅层到深层相当于从简单到复杂的特征序列

然后又拿个车尾灯的多层卷积举例子，可以看到蓝色层已经有点常规理解的车灯特征的感觉了

CNN的卷积层&激活层&池化层结构如下，不过说后面讲池化，行吧你是TA你说了算

然后讲快乐的卷积计算，嘛很熟了就随便截图一张，这张应该是计算一个same的卷积，做的0填充

事实上不进行填充的话原始的图像输入在深层网络中会收缩的很快，而这会导致信息的损失

嘛然后就是卷积层的总结了

同时给出了一些常见的超参数组

然后给了caffee中实际设计时候的一个对应

嘛这个部分不错，讲了一下其实不同层的卷积计算在面对用一个空间位置进行计算的时候就类似与不同层次的神经元面对同一个视觉输入的不同层次刺激变化，而这就是卷积层区别于全连接层的核心

哈！讲到池化层啦，池化层主要是为了将之前层生成的表示缩小，越小需要训练的参数越少，但是这种缩小和之前卷积层不填充导致的缩小是不同的，卷积层的缩小伴随的是边缘信息的损失，而池化层的缩小更相当于数据压缩，这种压缩面对完整的信息矩阵的每一个位置是同步的

比如最常见的Max Pooling，在22的区域里面取最大值作为降采样结果，相当于认为最大值是临近区域的最关键信息
在这里插入图片描述
不得不说，有个最大池化部分的弹幕给我看乐了，虽然语义结构上不太对，但是意会到想表达的意思了hhhh

然后同样给出了一些常见设置

一堆絮絮叨叨的还原分析就不说了，直接总结！下课！