卷积神经网络（1）--数据集介绍与卷积神经网络的神经科学基础

最新推荐文章于 2024-08-31 11:43:10 发布

Meruz

最新推荐文章于 2024-08-31 11:43:10 发布

阅读量3.4k

点赞数 2

分类专栏： TensorFlow深度学习算法原理与编程实战文章标签：神经网络机器学习卷积神经网络

本文链接：https://blog.csdn.net/weixin_43002202/article/details/89422153

版权

TensorFlow深度学习算法原理与编程实战专栏收录该内容

20 篇文章 5 订阅

订阅专栏

preface：整体框架介绍

7.1 节：介绍了相关但是不太重要的内容

7.1.1 图像识别的经典数据集；ILSVRC计算机视觉比赛
7.1.2 卷积网络的神经科学基础
7.1.3 卷积神经网络的历史

==7.2节：卷积==

7.2.1 卷积运算
卷积（相较于全连接网络）的特点
- 7.2.2 稀疏连接
- 7.2.3 参数共享
- 7.2.4 平移变换
- 7.2.5 多层卷积核
7.2.6 卷积层的代码实现

==7.3节：池化（pooling）==

7.3.1 池化过程
7.3.2 常用的池化函数
- max pooling
- average pooling
7.3.3 池化层的代码实现

7.4节：实现卷积神经网络的简单例子

7.5节：图像数据处理

（1）

数据集的简单介绍

MNIST数据集的介绍与下载：http://yann.lecun.com/exdb/mnist/

第六章已经用全连接网络有所应用，经优化的全连接网络在MNIST数据集上有着比较好的表现，正确率达到98%，而卷积神经网络还能进一步提高正确率，在第八章中介绍经典卷积网络时，首先介绍到的LeNet-5模型能将MNIST数据集识别正确率提升到99.2%

Cifar数据集的介绍与下载：

官网：http://www.cs.toronto.edu/~kriz/cifar.html

中文翻译网站及更多介绍：https://www.cnblogs.com/cloud-ken/p/8456878.html

Cifar数据集和MNIST数据集的相似之处在于他们的图片尺寸都是固定的，前者为32*32，后者为28*28，相比MNIST颜色为黑白，Cifar数据集为彩色图片，且图像还有背景干扰，因此分类难度更大。在Cifar数据集上人类表现的最高正确率为95.55%，同样使用了CNN模型
但从实际出发，一个基于MNIST数据集和Cifar数据集训练出来的卷积神经网络都不能够大规模的投入使用。因为现实中的图片分辨率不会都是28*28或者32*32的，会远远高于这个值，而且也不会都固定不变；其次生活中的的物体分类不会只有10种或者100种；最后，现实中一张图片往往包含多种物体，只包含一个物体的图片需要经过筛选。

ImageNet：http://www.image-net.org/

为更真实的模拟现实生活当中的图像识别问题，需要更多、更大、更复杂的图片来训练卷积神经网络，ImageNet由此应运而生。

ImageNet图像数据集由李飞飞创办于于2007年，2017年开始由Kaggle继续维护。

WordNet是一个由普林斯顿大学认识科学实验室在心理学教授乔治·A·米勒的指导下建立和维护的英语字典。开发工作从1985年开始。由于它包含了语义信息，所以有别于通常意义上的字典。WordNet根据词条的意义将它们分组，每一个具有相同意义的字条组称为一个synset(同义词集合)。WordNet为每一个synset提供了简短，概要的定义，并记录不同synset之间的语义关系。WordNet中的每个有意义的概念(concept)(可能由多个单词或单词短语描述)被称为"同义词集(synonym set)"或"synset"。

ImageNet是根据WordNet层次结构组织的图像数据集。在ImageNet中，目标是为了说明每个synset提供平均1000幅图像。每个concept图像都是质量控制和人为标注的(quality-controlled and human-annotated)。在完成之后，希望ImageNet能够为WordNet层次结构中的大多数concept提供数千万个干净整理的图像(cleanly sorted images)。

ImageNet是一项持续的研究工作，旨在为世界各地的研究人员提供易于访问的图像数据库。目前ImageNet中总共有14197122幅图像，总共分为21841个类别(synsets)，大类别包括：amphibian、animal、appliance、bird、covering、device、fabric、fish、flower、food、fruit、fungus、furniture、geological formation、invertebrate、mammal、musical instrument、plant、reptile、sport、structure、tool、tree、utensil、vegetable、vehicle、person。

ImageNet有5种下载方式，如下图所示：

(1). 所有图像可通过url下载：下载链接，在SEARCH框中输入需要下载的synset，如tree，结果如下图所示，也可按WordNet ID下载即，

(2). 直接下载原始图像

(3). 下载图像features

(4). 下载Object Bounding Boxes：目前标注过的synsets已经超过3000种，对于每种synset，平均有150张带有边界框(bounding boxes)的图像。

(5). 下载Object Attributes：目前标注过的synsets大约有400种，对于每一个synset，包含25种属性：

A. 颜色：黑色，蓝色，棕色，灰色，绿色，橙色，粉红色，红色，紫罗兰色，白色，黄色;

B. 图案(pattern)：斑点，条纹；

C. 形状：长，圆形，矩形，方形；

D. 纹理(texture)：毛茸茸，光滑，粗糙，有光泽，金属色，植被(vegetation)，木质，湿润。

标注的属性是基于先前收集的边界框内的object。

ImageNet中的每张图片属于提供图片的个人，ImageNet不拥有图像的版权，ImageNet数据集可以免费用于学术研究和非商业用途，但不能直接使用这些数据作为产品的一部分。

计算机视觉识别挑战赛ILSVRC与经典的卷积神经网络

ImageNet Large Scale Visual Recognition Challenge(ILSVRC)，从2010年开始，每年举办的ImageNet大规模视觉识别挑战赛，到2017年后截止。比赛项目包括：

图像分类(Classification)、
目标定位(Object localization)、
目标检测(Object detection)、
视频目标检测(Object detection from video)、
场景分类(Scene classification)、
场景解析(Scene parsing)。

ILSVRC中使用到的数据仅是ImageNet数据集中的一部分。比赛使用的所有数据集均可通过登录后下载。

ILSVRC诞生了一些经典的图像识别模型：

2012年，多伦多大学的教授及其学生Alex参赛，使用深度学习处理图像识别问题，AlexNet网络模型将错误率从原来的25%降到了16%。

2014年，ILSVRC竞赛上又出现了两个引人关注的模型：VGGNet和GoogleNet（InceptionNet-V3）。相比AlexNet 16%的错误率，VGGNet把错误率降到了7.3%，GoogleNet则是6.67%。

2015年又新提出了一种名为深度残差网络（ResNet），深度残差网络比之前的任何模型都要深，它可以训练100层，甚至1000层，把错误率从6%降到了3.57%，也是ImageNet数据集上，机器表现首次优于人类。

在第八章会学习到LeNet-5、AlexNet、VGGNet、InceptionNet-V3和ResNet这个五个经典模型。

CNN的神经科学基础

卷积神经网络的出现源于对神经感受野的研究，虽然不乏数学和其他工程学科的指引，但网络的一些关键设计原则来自神经科学，一般将CNN 看作是AI受启发于生物神经学最为成功的案例。

哺乳动物视觉系统工作机理发现过程

刺激小猫瞳孔实验过程：

在猫咪的后脑骨开一个3mm的小洞，插入电极，检测神经元激活程度。
将不同形状、亮度不同的物体投影在猫咪面前。对于每一个物体还会改变其放置的位置和角度，检测当猫咪瞳孔感受到不同类型、强度刺激时的神经元激活程度。（刺激越强电流越强）

补充：

神经元作为神经系统的基本单位，它的功能特性就是收到刺激后会产生神经冲动，并沿轴突传送出去，神经冲动是一种兴奋状态下的电信号，沿着神经纤维传导
电信号产生的原因是因为细胞膜内外的例子浓度不同，当受到神经细胞受到刺激，神经细胞突触后摸会改变对NA离子与K离子的通透性，产生电位差，从而产生电流

实验结果与猜测：

猜测：位于脑后皮层的不同视觉神经元与瞳孔所受刺激之间存在的某种对应关系，一旦瞳孔受到某一种刺激，后脑皮层的某一部分神经元就会被激活，从而呈现出活跃状态
反复实验发现：处于视觉系统较为前面的神经元细胞只对特定的光模式有强烈的反应，这些神经元细胞会在瞳孔瞥见眼前物体的边缘，而且这个边缘指向某个方向时呈现出活跃的状态。这些神经元后来被称为“方向选择性细胞”。

神经系统的进一步思考：

关于神经中枢与视觉系统的工作过程，或许是一个不断迭代、不断抽象的过程，从一个原始信号，做低级抽象（发现一些基本特征，如一个气球的边缘与颜色），再逐渐向高级特征抽象（组合这些基本特征，如气球的外形是圆的，某一区域有相同的颜色）

视觉皮层的结构与功能简化说明（与CNN相关）

视网膜：

瞳孔接受物体反射的光线刺激，将光信息传递到视网膜
视网膜中的神经元，根据不同的形态和功能主要分为五大类：光感受器、双极神经元、神经节细胞、水平细胞和无长突细胞，这些神经元规则分层排列。
视网膜的光感受器将所接收的光信息转化为电信号，并将电信息传递给十多个双极神经元，可以理解为十多条并行的通路，这十多条通路在对视觉信息进行平行传递，同时水平细胞和无长突细胞进行加工处理，最终将视觉信息的不同要素（比如明暗变化，颜色，运动速度与方向等）抽提出来传递给不同的神经节细胞。视网膜神经节细胞则是视觉信息在视网膜中的最后一站，其对信息进行加工整合后将电信号向下一级脑区外膝体的中继细胞进行传递。

↓信号通过神经传递

下丘脑区域的外漆体：

是一个信号中转站，仅将信号从视网膜传递到位为头后部的V1区，不做处理。外漆体的神经元也是规则地分层排列，神经节细胞的信息传递存在空间映射关系，视网膜中的相邻区域投射到外膝体时也是相邻或重叠的。这一点的重要性在于可以将空间位置信息在视觉信息传递的过程中得以保留。

↓信号通过神经传递

到达视皮层（中央处理器）

补充：通常所说的视皮层主要包括五个区域（视觉第一、第二、第三、第四、第五区域等，即V1、V2、V3、V4、V5）或六个区域，整个的皮层信息处理过程由两条并行的通路完成：V1、V2、V4 等组成的腹侧通路主要处理物体形状、颜色等信息；V1、V2、V5 等组成的背侧通路主要负责对运动等信息的感知。

V1区域（初级视皮层）：

大脑对视觉输入执行高级处理的第一个区域，处理得到边缘和方向特征信息
简单细胞：感受野较小，呈狭长型，对小光点有反应而对大面积的弥散光无反应，并且对处于拮抗区边缘一定方位和一定宽度的条形刺激有强烈的反应，也即简单细胞最大程度的响应来自感受野范围内的边缘刺激，适用于检测具有明暗对比的直边。
复杂细胞：具有更大的接受域（感受野），复杂细胞相应类似简单细胞检测的特征，但是对于来自确切位置的特征刺激具有局部的微小偏移不变性，也即复杂细胞对感受野内的边缘的位置没有严格的选择性（忽略刺激的精确位置）
V1区也具有空间映射的性质，通过二维结构来表达视网膜的图像。挡着住视网膜神经节细胞的一半，只让另一半接受光刺激，V1区只有相应一半能够受到影响。

补充：

生物神经感受野：感受器受刺激兴奋时，通过感受器官中的向心神经元将神经冲动（各种感觉信息）传到上位中枢，一个神经元所反应（支配）的刺激区域就叫做神经元的感受野。
在视觉通路上，视网膜上的光感受器（杆体细胞和锥体细胞）通过接受光并将它转换为输出神经电信号而来影响许多神经节细胞，外膝体细胞以及视觉皮层中的神经细胞。反过来，任何一种神经细胞的输出都依赖于视网膜上的许多光感受器。我们称直接或间接影响某一特定神经细胞的光感受器细胞的全体为该特定神经细胞的感受野

↓信号通过神经传递