(一)case study
一、Why look at case studies
计算机视觉领域的相关论文,别人训练的模型可能对自己也是有帮助的,如何构建高效的卷积神经网络
二、Classic Networks
1.LeNet-5:传统的几层卷积--池化--卷积--全连接层--全连接层---输出,整体大概有6万个参数
2.AlexNet:与LeNet很相似,但它大概有6千万个参数
这篇论文的一个作用是:深度学习最早在语音识别等领域受到较大关注,但这篇论文使得在计算机视觉上进展较大
3.VGG-16(VGG),还有VGG-19是更大的神经网络
结构简单,更能关注卷积层,VGG的优点是真正简化了神经网络结构
但其网络中共有1亿3千8百万个参数,在每组卷积层通道数双倍增加,即通道数依次为64 128 256 512
按比率减少或增加
阅读顺序:Alex,VGGNET, LeNet
三、ResNets
看过上述三个传统深度神经网络之后,下边几个是较为先进的神经网络
太深的神经网络具有梯度消失和爆炸等问题
skip connection,把一层突然传递给下一层甚至更深的神经网络,据此可以训练网络层很深很深的残差网络(ResNet)
指的是a[l]跳过一层或跳过两层将信息传递到更深的神经网络中,其中,如a[l]跳到z[l+2]部分,即在z[l+2]部分加上a[l]作为残差项,然后计算relu值
每两层做一次改变,五个残差网络堆积在一起,较plain network而言,不会随网络层数的增加而性能会出现减弱的现象
即在训练很深的神经网络时,可以使用ResNet进行优化
四、Why ResNets Work
残差网络有效果的原因是:
使用太深层的网络会使训练集的训练效果减弱
把残差块加到神经网络的中间或尾部并不会影响神经网络的表现
五、Networks in Networks and 1x1 Convolutions
1X1的卷积,相当于全连接层进行计算,有时也叫做网中网(network in network)
缩小通道数目(卷积)以达到减少计算量的目的
不改变通道数时,其作用主要是增加非线性
六、Inception Network Motivation
对于5X5的卷积核来说,共要进行1.2亿次计算
共进行1240万,是第一个方法的1/10
即1X1卷积形成了瓶颈层,降低了计算量
七、Inception Network
(二)Prctical advices for using ConvNets
一、Using Open-Source Implementation
从选择喜欢的框架开始→找开源的代码实现(去github下载好)→在下载好的代码上开发
好处是,也许很长时间来训练,有人已经用多个GPU和大数据训练好了,直接使用进行迁移学习
二、Transfer Learning
公开的图像数据库:ImageNet,MSCOCO,PASCAL
可以下载训练好的网络
三、Data Augmentation
增加数据量
四、State of Computer Vision
目前数据虽然很多,但满足需求的并不多,还在很大程度上依赖于人工设计。