深度学习—近年来流行的卷积神经网络(一)

本文回顾了卷积神经网络的发展,重点讲述了VGGNet、GooleNet和ResNet的结构特点。VGGNet通过多层3×3卷积核增加感受野;GooleNet引入Inception结构减少参数;ResNet提出残差学习解决深度网络训练难题。这些网络结构的创新推动了深度学习在图像识别领域的进步。
摘要由CSDN通过智能技术生成

1. 回顾与目标

前面几讲,我们以LeNetAlexNet为例,详细讲解了卷积神经网络的结构。从2012年AlexNetImageNet数据集上获得远超传统算法识别率以来,学术界在卷积神经网络方面进行了一系列的改进型研究工作,这一讲我们将描述这些重要的改进。

下图1是截至2015年卷积神经网络的发展图。

在这里插入图片描述

图1 各种不同网络在ImageNet上的结果

2012年AlexNetImageNet数据集的Top5错误率降低到16.4%
2014年VGGNetGooleNet分别将Top5错误率降低到7.3%6.7%
2015年ResNet将这个错误降低到3.57%,首次达到和真人不相上下的错误率。

在这一讲中,我们将大致讲解VGGNetGooleNetResNet的结构。同时我们将这三个网络的论文链接附在参开资料中,供大家下载学习。

2. 近年来流行的卷积神经网络

2.1 VGGNet

首先是VGGNet,下图2是16层和19层的VGGNetVGG16VGG19)以及它们与AlexNet的对比图。

在这里插入图片描述

图2 VGG16、VGG19以及AlexNet的对比图

VGGNetAlexNet的改进包括两个方面:

  • 增加了网络的深度
  • 多个3×3卷积核叠加代替更大的卷积核,用以增加感受野(Receptive Field)

2.1.1 感受野的概念

在卷积神经网络中,感受野(Receptive Field)的定义是卷积神经网络每一层输出的特征图Feature Map)上的像素点在输入图片上映射的区域大小。在通俗一点的解释是特征图上的一个点对应输入图上的区域,如下图3所示。

在这里插入图片描述

图3 感受野

图3最右边绿色特征图上左上角的一个点对应的感受野是最左边原图像上5×5的方格。

2.1.2 感受野的计算

下面我们通过两个例子来介绍感受野是如何计算的。

例1:两层3×3的卷积核卷积操作之后,第三层特征图上的每一个点的感受野是5×5,其中卷积核filter)的步长stride)为1padding0。其计算的方式如下图所示。

在这里插入图片描述

图4 感受野的计算演示

例2:如果步长stride=2,则两层3×3卷积核操作之后,第三层特征图上每一个点的感受野是15×15

计算感受野的一般公式为:
R F i = ( R F i − 1 − 1 ) × s t r i d e i − 1 + K S I Z E i RF_i=(RF_{i-1}-1)×stride_{i-1}+KSIZE_i RFi

评论 13
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值