深度学习笔记（二）

最新推荐文章于 2024-01-07 02:08:23 发布

AndyCao9527

最新推荐文章于 2024-01-07 02:08:23 发布

阅读量742

点赞数 1

分类专栏：深度学习

本文链接：https://blog.csdn.net/AndyCao9527/article/details/75330728

版权

深度学习专栏收录该内容

2 篇文章 0 订阅

订阅专栏

1 AlexNet

AlexNet在ILSVRC-2012的比赛中获得top5错误率15.3%的突破（第二名为26.2%），其原理来源于2012年Alex的论文《ImageNet Classification with Deep Convolutional Neural Networks》，这篇论文是深度学习火爆发展的一个里程碑和分水岭，加上硬件技术的发展，深度学习还会继续火下去。

1.1 网络结构分析

由于受限于当时的硬件设备，AlexNet在GPU粒度都做了设计，当时的GTX 580只有3G显存，为了能让模型在大量数据上跑起来，作者使用了两个GPU并行，并对网络结构做了切分，如下：
这里写图片描述

输入层

输入为224×224×3的三通道RGB图像，为方便后续计算，实际操作中通过padding做预处理，把图像变成227×227×3。
C1卷积层

该层由：卷积操作 + Max Pooling + LRN（后面详细介绍它）组成。
(1)、卷积层：由96个feature map组成，每个feature map由11×11卷积核在stride=4下生成，输出feature map为55×55×48×2，其中55=(227-11)/4+1，48为分在每个GPU上的feature map数，2为GPU个数；
(2)、激活函数：采用ReLU；
(3)、Max Pooling：采用stride=2且核大小为3×3（文中实验表明采用2×2的非重叠模式的Max Pooling相对更容易过拟合，在top 1和top 5下的错误率分别高0.4%和0.3%），输出feature map为27×27×48×2，其中27=(55-3)/2+1，48为分在每个GPU上的feature map数，2为GPU个数；
(4)、LRN：邻居数设置为5做归一化。
最终输出数据为归一化后的：27×27×48×2。
C2卷积层
该层由：卷积操作 + Max Pooling + LRN组成
(1)、卷积层：由256个feature map组成，每个feature map由5×5卷积核在stride=1下生成，为使输入和卷积输出大小一致，需要做参数为2的padding，输出feature map为27×27×128×2，其中27=(27-5+2×2)/1+1，128为分在每个GPU上的feature map数，2为GPU个数；
(2)、激活函数：采用ReLU；
(3)、Max Pooling：采用stride=2且核大小为3×3，输出feature map为13×13×128×2，其中13=(27-3)/2+1，128为分在每个GPU上的feature map数，2为GPU个数；
(4)、LRN：邻居数设置为5做归一化。
最终输出数据为归一化后的：13×13×128×2。
C3卷积层
该层由：卷积操作 + LRN组成（注意，没有Pooling层）
(0)、输入为13×13×256，因为这一层两个GPU会做通信（途中虚线交叉部分）
(1)、卷积层：之后由384个feature map组成，每个feature map由3×3卷积核在stride=1下生成，为使输入和卷积输出大小一致，需要做参数为1的padding，输出feature map为13×13×192×2，其中13=(13-3+2×1)/1+1，192为分在每个GPU上的feature map数，2为GPU个数；
(2)、激活函数：采用ReLU；
最终输出数据为归一化后的：13×13×192×2。
C4卷积层
该层由：卷积操作 + LRN组成（注意，没有Pooling层）
(1)、卷积层：由384个feature map组成，每个feature map由3×3卷积核在stride=1下生成，为使输入和卷积输出大小一致，需要做参数为1的padding，输出feature map为13×13×192×2，其中13=(13-3+2×1)/1+1，192为分在每个GPU上的feature map数，2为GPU个数；
(2)、激活函数：采用ReLU；
最终输出数据为归一化后的：13×13×192×2。
C5卷积层
该层由：卷积操作 + Max Pooling组成
(1)、卷积层：由256个feature map组成，每个feature map由3×3卷积核在stride=1下生成，为使输入和卷积输出大小一致，需要做参数为1的padding，输出feature map为13×13×128×2，其中13=(13-3+2×1)/1+1，128为分在每个GPU上的feature map数，2为GPU个数；
(2)、激活函数：采用ReLU；
(3)、Max Pooling：采用stride=2且核大小为3×3，输出feature map为6×6×128×2，其中6=(13-3)/2+1，128为分在每个GPU上的feature map数，2为GPU个数.
最终输出数据为归一化后的：6×6×128×2。
F6全连接层
该层为全连接层 + Dropout
(1)、使用4096个节点；
(2)、激活函数：采用ReLU；
(3)、采用参数为0.5的Dropout操作
最终输出数据为4096个神经元节点。
F7全连接层
该层为全连接层 + Dropout
(1)、使用4096个节点；
(2)、激活函数：采用ReLU；
(3)、采用参数为0.5的Dropout操作
最终输出为4096个神经元节点。
F8输出层
该层为全连接层 + Softmax
(1)、使用1000个输出的Softmax
最终输出为1000个分类。

AlexNet的亮点如下：

1.2 ReLu激活函数

AlexNet引入了ReLU激活函数，这个函数是神经科学家Dayan、Abott在《Theoretical Neuroscience》一书中提出的更精确的激活模型：
这里写图片描述

新激活模型的特点是：

激活稀疏性（L小于1时r为0）
单边抑制（不像Sigmoid是双边的）
宽兴奋边界，非饱和性（ReLU导数始终为1），很大程度缓解了梯度消失问题

Why use activation functions?

激活函数通常有如下一些性质：

非线性：当激活函数是线性的时候，一个两层的神经网络就可以逼近基本上所有的函数了。但是，如果激活函数是恒等激活函数的时候（即f(x)=x），就不满足这个性质了，而且如果MLP使用的是恒等激活函数，那么其实整个网络跟单层神经网络是等价的。
可微性：当优化方法是基于梯度的时候，这个性质是必须的。
单调性：当激活函数是单调的时候，单层网络能够保证是凸函数。
f(x)≈x：当激活函数满足这个性质的时候，如果参数的初始化是random的很小的值，那么神经网络的训练将会很高效；如果不满足这个性质，那么就需要很用心的去设置初始值。
输出值的范围：当激活函数输出值是有限的时候，基于梯度的优化方法会更加稳定，因为特征的表示受有限权值的影响更显著；当激活函数的输出是无限的时候，模型的训练会更加高效，不过在这种情况小，一般需要更小的learning rate.
这些性质，也正是我们使用激活函数的原因！

Sigmoid
这里写图片描述

Sigmoid 是常用的非线性的激活函数，它的数学形式如下：

                        f(x)=1/(1+e−x)

正如前一节提到的，它能够把输入的连续实值“压缩”到0和1之间。
特别的，如果是非常大的负数，那么输出就是0；如果是非常大的正数，输出就是1.
sigmoid 函数曾经被使用的很多，不过近年来，用它的人越来越少了。主要是因为它的一些缺点：

Sigmoids saturate and kill gradients. （saturate 这个词怎么翻译？饱和？）sigmoid 有一个非常致命的缺点，当输入非常大或者非常小的时候（saturation），这些神经元的梯度是接近于0的，从图中可以看出梯度的趋势。所以，你需要尤其注意参数的初始值来尽量避免saturation的情况。如果你的初始值很大的话，大部分神经元可能都会处在saturation的状态而把gradient kill掉，这会导致网络变的很难学习。
Sigmoid 的 output 不是0均值. 这是不可取的，因为这会导致后一层的神经元将得到上一层输出的非0均值的信号作为输入。
产生的一个结果就是：如果数据进入神经元的时候是正的(e.g. x>0 elementwise in f=wTx+b)，那么 w 计算出的梯度也会始终都是正的。
当然了，如果你是按batch去训练，那么那个batch可能得到不同的信号，所以这个问题还是可以缓解一下的。因此，非0均值这个问题虽然会产生一些不好的影响，不过跟上面提到的 kill gradients 问题相比还是要好很多的。

tanh

tanh 是上图中的右图，可以看出，tanh 跟sigmoid还是很像的，实际上，tanh 是sigmoid的变形：

                         tanh(x)=2sigmoid(2x)−1

与 sigmoid 不同的是，tanh 是0均值的。因此，实际应用中，tanh 会比 sigmoid 更好（毕竟去粗取精了嘛）。

ReLU
这里写图片描述

近年来，ReLU 变的越来越受欢迎。它的数学表达式如下：

                           f(x)=max(0,x)

很显然，从图左可以看出，输入信号<0时，输出都是0，>0 的情况下，输出等于输入。w 是二维的情况下，使用ReLU之后的效果如下：
这里写图片描述

ReLU 的优点：

Krizhevsky et al. 发现使用 ReLU 得到的SGD的收敛速度会比 sigmoid/tanh 快很多(看右图)。有人说这是因为它是linear，而且 non-saturating
相比于 sigmoid/tanh，ReLU 只需要一个阈值就可以得到激活值，而不用去算一大堆复杂的运算。
ReLU 的缺点：当然 ReLU 也有缺点，就是训练的时候很”脆弱”，很容易就”die”了. 什么意思呢？

举个例子：一个非常大的梯度流过一个 ReLU 神经元，更新过参数之后，这个神经元再也不会对任何数据有激活现象了。