【周志华机器学习】五、神经网络之CNN

最新推荐文章于 2024-09-01 15:53:42 发布

CHH3213

最新推荐文章于 2024-09-01 15:53:42 发布

阅读量987

点赞数 3

分类专栏：机器学习文章标签：机器学习人工智能网络卷积神经网络

本文链接：https://blog.csdn.net/weixin_42301220/article/details/124241839

版权

机器学习专栏收录该内容

27 篇文章

订阅专栏

参考资料

本博客根据参考资料所做的笔记，主要用于学习，非技术类博客，因此存在大量复制粘贴，请见谅。
强烈建议阅读参考资料3，对CNN讲得特别清楚

1. 概念

卷积神经网络（Convolutional Neural Networks, CNN）是一类包含卷积计算且具有深度结构的前馈神经网络（Feedforward Neural Networks），是深度学习（deep learning）的代表算法之一。

cs231n课程里给出了卷积神经网络各个层级结构：

上图中CNN要做的事情是：给定一张图片，是车还是马未知，是什么车也未知，现在需要模型判断这张图片里具体是一个什么东西，总之输出一个结果：如果是车，那是什么车。

最左边是数据输入层(input layer)，对数据做一些处理，比如去均值（把输入数据各个维度都中心化为0，避免数据过多偏差，影响训练效果）、归一化（把所有的数据都归一到同样的范围）、PCA/白化等等。CNN只对训练集做“去均值”这一步。
CONV：卷积计算层(conv layer)，线性乘积求和。
RELU：激励层(activation layer)，ReLU是激活函数的一种。
POOL：池化层(pooling layer)，简言之，即取区域平均或最大。
FC：全连接层(FC layer)。

这几个部分中，卷积计算层是CNN的核心。

2. 输入层

在做输入的时候，需要把图片处理成同样大小的图片才能够进行处理。

常见的处理数据的方式有：

去均值(常用)
- AlexNet：训练集中100万张图片，对每个像素点求均值，得到均值图像，当训练时用原图减去均值图像。
- VGG：对所有输入在三个颜色通道R/G/B上取均值，只会得到3个值，当训练时减去对应的颜色通道均值。(此种方法效率高)
**TIPS:**在训练集和测试集上减去训练集的均值。
归一化

幅度归一化到同样的范围。
PCA/白化(很少用)
- 用PCA降维
- 白化是对数据每个特征轴上的幅度归一化。

3. 卷积计算层(conv)

3.1 features

对于CNN来说，它是一块一块地来进行比对。它拿来比对的这个“小块”我们称之为Features（特征）。在两幅图中大致相同的位置找到一些粗糙的特征进行匹配，CNN能够更好的看到两幅图的相似性，相比起传统的整幅图逐一比对的方法。

每一个feature就像是一个小图（就是一个比较小的有值的二维数组）。不同的Feature匹配图像中不同的特征。那么，是如何匹配的呢？

这里面的数学操作，就是我们常说的“卷积”操作。

3.2 卷积

对图像（不同的数据窗口数据）和滤波矩阵（一组固定的权重：因为每个神经元的多个权重固定，所以又可以看做一个恒定的滤波器filter）做内积（逐个元素相乘再求和）的操作就是所谓的『卷积』操作，也是卷积神经网络的名字来源。

非严格意义上来讲，下图中红框框起来的部分便可以理解为一个滤波器，即带着一组固定权重的神经元。多个滤波器叠加便成了卷积层。

在这里插入图片描述

比如下图中，图中左边部分是原始输入数据，图中中间部分是滤波器filter，图中右边是输出的新的二维数据。
在这里插入图片描述

所有对应位置上的数字相乘后相加便得到结果-8.

不同的滤波器filter会得到不同的输出数据，比如颜色深浅、轮廓。**相当于提取图像的不同特征，模型就能够学习到多种特征。**用不同的滤波器filter，提取想要的关于图像的特定信息：颜色深浅或轮廓。如下图所示。

在CNN中，滤波器filter（带着一组固定权重的神经元）对局部输入数据进行卷积计算。每计算完一个数据窗口内的局部数据后，数据窗口不断平移滑动，直到计算完所有数据。这个过程中，有几个参数：

深度depth：神经元个数，决定输出的depth厚度。同时代表滤波器个数。
步长stride：决定滑动多少步可以到边缘。
填充值zero-padding：在外围边缘补充若干圈0，方便从初始位置以步长为单位可以刚好滑倒末尾位置，通俗地讲就是为了总长能被步长整除。

下面是个示例：
在这里插入图片描述

可以看到：

两个神经元，即depth=2，意味着有两个滤波器。
数据窗口每次移动两个步长取3*3的局部数据，即stride=2。
zero-padding=1。

然后分别以两个滤波器filter为轴滑动数组进行卷积计算，得到两组不同的结果。

左边是输入（773中，7*7代表图像的像素/长宽，3代表R、G、B 三个颜色通道）
中间部分是两个不同的滤波器Filter w0、Filter w1
最右边则是两个不同的输出

随着左边数据窗口的平移滑动，滤波器Filter w0 / Filter w1对不同的局部数据进行卷积计算。

值得一提的是：左边数据在变化，每次滤波器都是针对某一局部的数据窗口进行卷积，这就是所谓的CNN中的局部感知机制。

与此同时，数据窗口滑动，导致输入在变化，但中间滤波器Filter w0的权重（即每个神经元连接数据窗口的权重）是固定不变的，这个权重不变即所谓的CNN中的参数（权重）共享机制。

参数（权重）共享机制：假设每个神经元连接数据窗的权重是固定对的。固定每个神经元连接权重，可以看做模板，每个神经元只关注一个特性(模板)，这使得需要估算的权重个数减少：一层中从1亿到3.5万。

卷积操作的本质特性包括稀疏交互和参数共享。

4. 激励层

把卷积层输出结果做非线性映射。

激活函数有：

sigmoid：在两端斜率接近于0，梯度消失。
ReLu：修正线性单元，有可能出现斜率为0，但概率很小，因为mini-batch是一批样本损失求导之和。

TIPS:

CNN慎用sigmoid！
首先试RELU，因为收敛快，求梯度简单。
如果RELU失效，请用 Leaky ReLU或者Maxout。
某些情况下tanh倒是有不错的结果，但是很少。

5. 池化层

池化，简言之，即取区域平均或最大.

池化层也叫下采样层，就算通过了卷积层进行卷积操作，纬度还是很高，需要进行池化层操作。

夹在连续的卷积层中间。
压缩数据和参数的量，降低维度。
减小过拟合。
具有特征不变性。

方式有：Max pooling、average pooling

Max pooling

取出每个部分的最大值作为输出，例如上图左上角的4个黄色方块取最大值为3作为输出，以此类推。

average pooling

每个部分进行计算得到平均值作为输出。

在这里插入图片描述

上图所展示的是Max pooling(取区域最大)，即上图左边部分中左上角2x2的矩阵中6最大，右上角2x2的矩阵中8最大，左下角2x2的矩阵中3最大，右下角2x2的矩阵中4最大，所以得到上图右边部分的结果：6 8 3 4。

6. 全连接层

全连接层的每一个结点都与上一层的所有结点相连，用来把前边提取到的特征综合起来。由于其全连接的特性，一般全连接层的参数也是最多的。

两层之间所有神经元都有权重连接
通常全连接层在卷积神经网络尾部

6.1 层次结构小结

CNN层次结构	作用
输入层	卷积网络的原始输入，可以是原始或预处理后的像素矩阵
卷积层	参数共享、局部连接，利用平移不变性从全局特征图提取局部特征
激活层	将卷积层的输出结果进行非线性映射
池化层	进一步筛选特征，可以有效减少后续网络层次所需的参数量
全连接层	用于把该层之前提取到的特征综合起来。

7. CNN优缺点

优点：

共享卷积核，优化计算量。
无需手动选取特征，训练好权重，即得特征。
深层次的网络抽取图像信息丰富，表达效果好。
保持了层级网络结构。
不同层次有不同形式与功能。

缺点：

需要调参，需要大样本量，GPU等硬件依赖。
物理含义不明确。

与NLP/Speech共性：

都存在局部与整体的关系，由低层次的特征经过组合，组成高层次的特征，并且得到不同特征之间的空间相关性。

8. 典型CNN发展历程

LeNet，这是最早用于数字识别的CNN
AlexNet， 2012 ILSVRC比赛远超第2名的CNN，比LeNet更深，用多层小卷积层叠加替换单大卷积层。
ZF Net， 2013 ILSVRC比赛冠军
GoogLeNet， 2014 ILSVRC比赛冠军
VGGNet， 2014 ILSVRC比赛中的模型，图像识别略差于GoogLeNet，但是在很多图像转化学习问题(比如objectdetection)上效果很好
ResNet(深度残差网络（Deep Residual Network，ResNet）)， 2015ILSVRC比赛冠军，结构修正(残差学习)以适应深层次CNN训练。
DenseNet， CVPR2017 best paper，把ResNet的add变成concat

9. 图像相关任务

9.1 图像识别与定位

**classification：**C个类别识别
- input：Image
- Output：类别标签
- Evaluation metric：准确率
Localization定位)
- Input：Image
- Output：物体边界框(x,y,w,h)
- Evaluation metric：交并准则(IOU) > 0.5

思路1：识别+定位过程

识别可以看作多分类问题(用softmax)，用别人训练好的CNN模型做fine-tune
定位的目标是(x,y,w,h)是连续值，当回归问题解决(mse)

在步骤1的CNN尾部展开(例如把最后一层拿开)，接上一个(x,y,w,h)的神经网络，成为classification+regression的模型。

更细致的识别可以提前规定好有k个组成部分，做成k个部分的回归，

**例如：**框出两只眼睛和两条腿，4元祖*4=16(个连续值)
Regression部分用欧氏距离损失，使用SGD训练。

思路2：图窗+识别

类似刚才的classification+regression思路
取不同大小的“框”
让框出现在不同的位置
判定得分
按照得分的高低对“结果框”做抽样和合并

9.2 物体检测(object detection)

9.2.1 过程

当图像有很多物体怎么办的？那任务就变成了：多物体识别+定位多个物体，那把这个任务看做分类问题？

看成分类问题有何不妥？

需要找很多位置，给很多个不同大小的框
还需要对框内的图像分类

**边缘策略：**想办法先找到可能包含内容的图框(候选框)，然后进行分类问题的识别。

方法：根据RGB值做区域融合。fast-CNN，共享图窗，从而加速候选框的形成。

R-CNN => fast-CNN => faster-RCNN 速度对比

9.2.2 R-CNN

R-CNN的简要步骤如下：

输入测试图像。
利用选择性搜索Selective Search算法在图像中从下到上提取2000个左右的可能包含物体的候选区域Region Proposal。
因为取出的区域大小各自不同，所以需要将每个Region Proposal缩放（warp）成统一的227x227的大小并输入到CNN，将CNN的fc7层的输出作为特征。
将每个Region Proposal提取到的CNN特征输入到SVM进行分类。

9.2.3 SPP-Net

SPP：Spatial Pyramid Pooling（空间金字塔池化），SPP-Net是出自2015年发表在IEEE上的论文。

众所周知，CNN一般都含有卷积部分和全连接部分，其中，卷积层不需要固定尺寸的图像，而全连接层是需要固定大小的输入。所以当全连接层面对各种尺寸的输入数据时，就需要对输入数据进行crop（crop就是从一个大图扣出网络输入大小的patch，比如227×227），或warp（把一个边界框bounding box(红框)的内容resize成227×227）等一系列操作以统一图片的尺寸大小，比如224224（ImageNet）、3232(LenNet)、96*96等。

所以才如你在上文中看到的，在R-CNN中，“因为取出的区域大小各自不同，所以需要将每个Region Proposal缩放（warp）成统一的227x227的大小并输入到CNN”。

但warp/crop这种预处理，导致的问题要么被拉伸变形、要么物体不全，限制了识别精确度。没太明白？说句人话就是，一张16:9比例的图片你硬是要Resize成1:1的图片，你说图片失真不？

SPP Net的作者Kaiming He等人逆向思考，既然由于全连接FC层的存在，普通的CNN需要通过固定输入图片的大小来使得全连接层的输入固定。那借鉴卷积层可以适应任何尺寸，为何不能在卷积层的最后加入某种结构，使得后面全连接层得到的输入变成固定的呢？

这个“化腐朽为神奇”的结构就是spatial pyramid pooling layer。

它的特点有两个:

结合空间金字塔方法实现CNNs的多尺度输入。

SPP Net的第一个贡献就是在最后一个卷积层后，接入了金字塔池化层，保证传到下一层全连接层的输入固定。

换句话说，在普通的CNN机构中，输入图像的尺寸往往是固定的（比如224*224像素），输出则是一个固定维数的向量。SPP Net在普通的CNN结构中加入了ROI池化层（ROI Pooling），使得网络的输入图像可以是任意尺寸的，输出则不变，同样是一个固定维数的向量。

简言之，CNN原本只能固定输入、固定输出，CNN加上SSP之后，便能任意输入、固定输出。神奇吧？
只对原图提取一次卷积特征

在R-CNN中，每个候选框先resize到统一大小，然后分别作为CNN的输入，这样是很低效的。

而SPP Net根据这个缺点做了优化：只对原图进行一次卷积计算，便得到整张图的卷积特征feature map，然后找到每个候选框在feature map上的映射patch，将此patch作为每个候选框的卷积特征输入到SPP layer和之后的层，完成特征提取工作。

如此这般，R-CNN要对每个区域计算卷积，而SPPNet只需要计算一次卷积，从而节省了大量的计算时间，比R-CNN有一百倍左右的提速。

9.2.4 Fast R-CNN

SPP Net真是个好方法，R-CNN的进阶版Fast R-CNN就是在R-CNN的基础上采纳了SPP Net方法，对R-CNN作了改进，使得性能进一步提高。

R-CNN有一些相当大的缺点（把这些缺点都改掉了，就成了Fast R-CNN）。

**大缺点：**由于每一个候选框都要独自经过CNN，这使得花费的时间非常多。

**解决：**共享卷积层，现在不是每一个候选框都当做输入进入CNN了，而是输入一张完整的图片，在第五个卷积层再得到每个候选框的特征。

原来的方法：许多候选框（比如两千个）–>CNN–>得到每个候选框的特征–>分类+回归

现在的方法：一张完整图片–>CNN–>得到每张候选框的特征–>分类+回归

所以容易看见，Fast R-CNN相对于R-CNN的提速原因就在于：不过不像R-CNN把每个候选区域给深度网络提特征，而是整张图提一次特征，再把候选框映射到conv5上，而SPP只需要计算一次特征，剩下的只需要在conv5层上操作就可以了。

算法步骤：

在图像中确定约1000-2000个候选框 (使用选择性搜索)。
对整张图片输进CNN，得到feature map。
找到每个候选框在feature map上的映射patch，将此patch作为每个候选框的卷积特征输入到SPP layer和之后的层。
对候选框中提取出的特征，使用分类器判别是否属于一个特定类。
对于属于某一类别的候选框，用回归器进一步调整其位置。

9.2.5 Faster R-CNN

Fast R-CNN存在的问题：存在瓶颈：选择性搜索，找出所有的候选框，这个也非常耗时。那我们能不能找出一个更加高效的方法来求出这些候选框呢？

解决：加入一个提取边缘的神经网络，也就说找到候选框的工作也交给神经网络来做了。

所以，rgbd在Fast R-CNN中引入Region Proposal Network(RPN)替代Selective Search，同时引入anchor box应对目标形状的变化问题（anchor就是位置和大小固定的box，可以理解成事先设置好的固定的proposal）。这就是Faster R-CNN。

算法步骤：

对整张图片输进CNN，得到feature map。
卷积特征输入到RPN，得到候选框的特征信息。
对候选框中提取出的特征，使用分类器判别是否属于一个特定类。
对于属于某一类别的候选框，用回归器进一步调整其位置。

9.2.6 YOLO

Faster R-CNN的方法目前是主流的目标检测方法，但是速度上并不能满足实时的要求。YOLO一类的方法慢慢显现出其重要性，这类方法使用了回归的思想，利用整张图作为网络的输入，直接在图像的多个位置上回归出这个位置的目标边框，以及目标所属的类别。

我们直接看上面YOLO的目标检测的流程图：

给个一个输入图像，首先将图像划分成7*7的网格。
对于每个网格，我们都预测2个边框（包括每个边框是目标的置信度以及每个边框区域在多个类别上的概率）。
根据上一步可以预测出772个目标窗口，然后根据阈值去除可能性比较低的目标窗口，最后NMS去除冗余窗口即可。

**小结：**YOLO将目标检测任务转换成一个回归问题，大大加快了检测的速度，使得YOLO可以每秒处理45张图像。而且由于每个网络预测目标窗口时使用的是全图信息，使得false positive比例大幅降低（充分的上下文信息）。

但是YOLO也存在问题：没有了Region Proposal机制，只使用7*7的网格回归会使得目标不能非常精准的定位，这也导致了YOLO的检测精度并不是很高。

9.2.7 SSD

SSD: Single Shot MultiBox Detector。上面分析了YOLO存在的问题，使用整图特征在7*7的粗糙网格内回归对目标的定位并不是很精准。那是不是可以结合region proposal的思想实现精准一些的定位？SSD结合YOLO的回归思想以及Faster R-CNN的anchor机制做到了这点。