Cousera - Deep Learning - 课程笔记 - Week 11

2018年11月版本

Week 11

经典网络案例 Classic Networks

LeNet-5

  • 任务:识别手写数字
  • 结构
    • 输入: 32 × 32 × 1 32 \times 32 \times 1 32×32×1 的灰度图像
    • 第一层:卷积层,使用 6 6 6 5 × 5 5 \times 5 5×5,步长为 1 1 1的滤波器,生成 28 × 28 × 6 28 \times 28 \times 6 28×28×6的结果
    • 第二层:均值池化层,使用边长为 2 2 2,步长为 2 2 2的滤波器,生成 14 × 14 × 6 14 \times 14 \times 6 14×14×6的结果
    • 第三层:卷积层,使用 16 16 16 5 × 5 5 \times 5 5×5,步长为 1 1 1的滤波器,生成 10 × 10 × 16 10 \times 10 \times 16 10×10×16的结果
    • 第四层:均值池化层,使用边长为 2 2 2,步长为 2 2 2的滤波器,生成 5 × 5 × 16 5 \times 5 \times 16 5×5×16的结果
    • 第五层:全连接层,将上一层的 400 400 400个节点全连接到 120 120 120个神经元上
    • 第六层:全连接层,共 84 84 84个神经元
    • 第七层:生成最终结果,拥有 10 10 10个预测值
    • 输出:包含 10 10 10个预测结果,与0-9的 10 10 10个数字相对应
    • 现代版本中,使用softmax处理最后的输出
  • 可以看到,从上到下,长度和宽度不断减小,通道数在不断增加
  • 相关文章:LeCun et al., 1998. Gradient-based learning applied to document recognition
  • 那个时候,人们不使用ReLU,使用sigmoid和tanh

AlexNet

  • 结构
    • 输入: 227 × 227 × 3 227 \times 227 \times 3 227×227×3图像
    • 第一层:卷积层,使用 96 96 96 11 × 11 11 \times 11 11×11,步长为 4 4 4的滤波器,生成 55 × 55 × 96 55 \times 55 \times 96 55×55×96的结果
    • 第二层:最大池化层,使用 3 × 3 3 \times 3 3×3,步长为 2 2 2的滤波器,生成 27 × 27 × 96 27 \times 27 \times 96 27×27×96的结果
    • 第三层:same卷积层,使用 5 × 5 5 \times 5 5×5的滤波器,生成 27 × 27 × 256 27 \times 27 \times 256 27×27×256的结果
    • 第四层:最大池化层,使用 3 × 3 3 \times 3 3×3,步长为 2 2 2的滤波器,生成 13 × 13 × 256 13 \times 13 \times 256 13×13×256的结果
    • 第五层:same卷积层,使用 3 × 3 3 \times 3 3×3的滤波器,生成 13 × 13 × 384 13 \times 13 \times 384 13×13×384的结果
    • 第六层:same卷积层,使用 3 × 3 3 \times 3 3×3的滤波器,生成 13 × 13 × 384 13 \times 13 \times 384 13×13×384的结果
    • 第七层:same卷积层,使用 3 × 3 3 \times 3 3×3的滤波器,生成 13 × 13 × 256 13 \times 13 \times 256 13×13×256的结果
    • 第八层:最大池化层,使用 3 × 3 3 \times 3 3×3,步长为 2 2 2的滤波器,生成 6 × 6 × 256 6 \times 6 \times 256 6×6×256的结果
    • 第九层:全连接层,将上一层结果展开成 9216 9216 9216个节点,与 4096 4096 4096个神经元相连
    • 第十层:全连接层,与 4096 4096 4096个神经元相连
    • 输出:softmax输出结果,共 1000 1000 1000
  • ReLU的使用让AlexNet表现出更好的性能
  • 相关文章:Krizhevsky et al., 2012. ImageNet classification with deep convolutional neural networks
  • 原文提到了在两块GPU上互相通讯进行训练的复杂方法
  • 原文中存在一个局部相应归一层(LRN),实际上用的很少,即对同一位置的不同通道的结果归一化,但是实际效果不明显

VGG-16

  • 优点:真正简化了神经网络结构
  • 所有的卷积层,使用 3 × 3 3 \times 3 3×3,步长为 1 1 1的same卷积滤波器
  • 所有的最大池化层,使用 2 × 2 2 \times 2 2×2,步长为 2 2 2的滤波器
  • 结构
    • 输入: 224 × 224 × 3 224 \times 224 \times 3 224×224×3图像
    • 第一层和第二层:same卷积,每层 64 64 64个滤波器,生成 224 × 224 × 64 224 \times 224 \times 64 224×224×64的结果
    • 第三层:池化层,生成 112 × 112 × 64 112 \times 112 \times 64 112×112×64的结果
    • 第四层和第五层:same卷积,每层 128 128 128个滤波器,生成 112 × 112 × 128 112 \times 112 \times 128 112×112×128的结果
    • 第六层:池化层,生成 56 × 56 × 128 56 \times 56 \times 128 56×56×128的结果
    • 第七层、第八层和第九层:same卷积,每层 256 256 256个滤波器,生成 56 × 56 × 256 56 \times 56 \times 256 56×56×256的结果
    • 第十层:池化层,生成 28 × 28 × 256 28 \times 28 \times 256 28×28×256的结果
    • 第十一层、第十二层和第十三层:same卷积,每层 512 512 512个滤波器,生成 28 × 28 × 512 28 \times 28 \times 512 28×28×512的结果
    • 第十四层:池化层,生成 14 × 14 × 512 14 \times 14 \times 512 14×14×512的结果
    • 第十五层、第十六层和第十七层:same卷积,每层 512 512 512个滤波器,生成 14 × 14 × 512 14 \times 14\times 512 14×14×512的结果
    • 第十八层:池化层,生成 7 × 7 × 512 7 \times 7 \times 512 7×7×512的结果
    • 第十九层和第二十层:全连接层,分别具有4096个神经元
    • 输出:softmax输出结果,共 1000 1000 1000个类
  • 16即该网络有16层具有权重的层
  • 相关文章:Simonyan & Zisserman 2015. Very deep convolutional nerworks for large-scale image recognition

ResNet

  • 使用了残差结构(Residual Structure)的网络

  • 残差块:两层的网络结构,由 a [ l ] a^{[l]} a[l] a [ l + 2 ] a^{[l+2]} a[l+2]的过程

    • 正常的神经网络计算过程称为主路径
    • 增加一个快捷路径,即将 a [ l ] a^{[l]} a[l]直接前提到对 z [ l + 2 ] z^{[l+2]} z[l+2]的ReLU处理上,有 a [ l + 2 ] = g ( z [ l + 2 ] + a [ l ] ) a^{[l+2]}=g(z^{[l+2]}+a^{[l]}) a[l+2]=g(z[l+2]+a[l])
    • a [ l ] a^{[l]} a[l]插于线性部分之后,ReLU部分之前
    • 常称改快捷路径为跳跃连接(skip connection),即跳过几乎跳过两层将信息传递下去
  • 残差网络可以训练更深层次的网络

  • 使用残差块进行堆叠,形成一个深层次网络

  • 对于使用了梯度下降等常规优化算法的普通网络(Plain Network),训练误差会随着层数增加而不降反升

  • 残差网络可以确保随着层数下降,误差仍旧保持下降

  • 对残差过程展开分析,有 a [ l + 2 ] = g ( W [ l + 2 ] a [ l + 1 ] + b [ l + 2 ] + a [ l ] ) a^{[l+2]}=g(W^{[l+2]}a^{[l+1]}+b^{[l+2]}+a^{[l]}) a[l+2]=g(W[l+2]a[l+1]+b[l+2]+a[l])

    • 如果 W W W趋近于零, b b b同样趋近于0,那么 a [ l + 2 ] ≈ g ( z [ l + 2 ] + a [ l ] ) = a [ l ] a^{[l+2]} \approx g(z^{[l+2]}+a^{[l]})=a^{[l]} a[l+2]g(z[l+2]+a[l])=a[l],因此残差网络对于训练恒等函数十分容易
    • 也就意味着,残差块的加入并不能影响网络整体结构的性能,相对于恒等函数,残差网络对于其他类型的函数表现会更好
    • 为了确保等式整理,要求 z [ l + 2 ] z^{[l+2]} z[l+2] a [ l ] a^{[l]} a[l]的维数相同,残差网络通常会有大量same卷积的应用
    • 如果输入和输出维数不同,可以对输入乘一个维数转换矩阵 W S W_S WS,这个矩阵还可以进行学习,或者直接固定用0对输入进行补白

1×1卷积,网中网 1×1 Convolution,Networks in Networks

  • 表面看起来更像是在对整个图片乘以一个数
  • 但当通道数大于1时,就变成了对应位置的数字和对应位置的权重相乘,类似于一个神经元接受多个输入,使用ReLU后输出结果
  • 实质上一个全连接的神经网络,接受通道个数的输入,逐一作用于图片的不同位置
  • 缩小通道数,可以使用1×1卷积核,以减小计算量
  • 维持通道数,使用1×1卷积核,可以增加非线性性

“盗梦空间”网络 Inception Network

  • 综合了各种卷积核情形和池化情形,网络整体更加复杂,但是性能却更好了

  • 一个Inception层就是将所有可能的情形(不同尺寸的卷积核,池化层(可能需要same填充以保证和卷积结果同维度))综合成一个层,一次性输出所有的可能结果

  • 但是存在一个问题:计算效率极低,尤其是在卷积核较大的情况之下

  • 解决方法:先使用1×1卷积核将通道数减小(瓶颈层),再使用大卷积核运算,这样可以大幅减小计算量

  • Inception模块:上一层激活值,分别使用不同大小卷积核以及池化层处理(大卷积核先用1×1缩减一下再计算,池化层最后通过1×1收缩通道数),最后把所有模块做渠道链接(Channel Concat)

  • 可以加入一些旁支,将隐藏层作为输入进行预测,以保证中间层用于预测结果也不算太差,这是一种形式的正则化,以防止过拟合

  • 参考文献:Szegedy et al. 2014. Going deeper with convolutions

使用卷积网络的建议

  • 使用开源的实现:解决一些复杂网络结构难以实现的问题,可以更快地理解更加复杂的结构

  • 迁移学习:将已经训练好的权重或者网络模型,并在其上进行二次训练和开发

    • 一种思路:冻结全部的既有层,之训练自己的softmax层,这样在自己很小的数据集上也能得到很好的结果,同时因为可以保存相关结果(前半部分不会发生变动,保存可以加速计算),直接训练一个浅层softmax网络
    • 当有当量数据时,应该冻结更少的层,更少的参数,或者直接用自己的结构替换最后几层
    • 极端的情况是,以既有权重做初始化,重新训练所有参数
  • 数据增强方法:

    • 常规方法
      • 垂直镜像
      • 随机裁剪(容易裁丢目标……)
      • 旋转
      • 剪切
      • 局部扭转
    • 色彩变化
      • 在三个通道带来不同的扰动
      • PCA,保证整体和之前相同的着色
    • 通过若干线程加载数据并进行扰动处理,再传递给其他线程或进程进行训练
  • 当拥有很少的数据时,特征的选择变得十分重要;当拥有很多数据时,人为干预变得不再必要

  • 基准数据集:帮助判断哪些算法更加优秀

  • 提高在基准数据集上的效果(不建议在实际产品系统中使用)

    • 集成:训练多个网络,对输出取平均
    • 多重裁剪:对一张图片及其镜像,分别对中心、左上角、左下角、右上角和右下角进行裁剪
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值