由于卷积神经网络在CV中有着非常重要的作用,所以在开始具体任务的学习之前,先单独对CNN相关知识进行一个梳理。
历史
1987--第一个卷积网络TDNN:1987年Alexander Waibel 提出时间延迟网络(Time Delay Neural Network, TDNN)
- 应用于语音识别问题
- 隐含层由2个一维卷积核组成,以提取频率域上的平移不变特征
- 表现超过了同等条件下的隐马尔可夫模型(Hidden Markov Model, HMM)(二十世纪80年代语音识别的主流算法)
1988--第一个二维卷积网络SIANN:1988年,Wei Zhang提出了平移不变人工神经网络(SIANN)
- 应用于检测医学影像
1989--第一个应用于计算机视觉的卷积神经网络LeNet:1989年Yann LeCun提出LeNet最初版本
- LeNet包含两个卷积层,2个全连接层,共计6万个学习参数,规模远超TDNN和SIANN,且在结构上与现代的卷积神经网络十分接近
- LeCun (1989)对权重进行随机初始化后使用了随机梯度下降(Stochastic Gradient Descent, SGD)进行学习,这一策略被其后的深度学习研究所保留
- LeCun (1989)在论述其网络结构时首次使用了“卷积”一词,“卷积神经网络”也因此得名。
1993--LeNet应用:1993年由贝尔实验室(AT&T Bell Laboratories)完成代码开发并被部署于NCR(National Cash Register Coporation)的支票读取系统
- 总体而言,由于数值计算能力有限、学习样本不足,加上同一时期以支持向量机(Support Vector Machine, SVM)为代表的核学习(kernel learning)方法的兴起,这一时期为各类图像处理问题设计的卷积神经网络停留在了研究阶段,应用端的推广较少
(图转侵删)
1998--LeNet-5在手写数字识别问题中取得成功:1998年Yann LeCun及其合作者构建了更加完备的卷积神经网络LeNet-5并在手写数字的识别问题中取得成功
- 命名:源自其作者姓LeCun。
- 成就:被成功用于ATM以对支票中的手写数字进行识别
- 网络基本架构为:conv1 (6) -> pool1 -> conv2 (16) -> pool2 -> fc3 (120) -> fc4 (84) -> fc5 (10) -> softmax。括号中的数字代表通道数。
- 5含义:卷积层两个,全连接层3个都是有可训练参数的,共计5层,所以5的意思是训练参数层数为5
- 参数量:60k参数
关键点:
- 增加了池化层对于输入特征进行筛选,定义了现代卷积神经网络的基本结构
- 卷积层-池化层被认为能够提取输入图像的平移不变特征
![0898db6136d8140c88e577aa8ec91877.png](https://img-blog.csdnimg.cn/img_convert/0898db6136d8140c88e577aa8ec91877.png)
2003--微软使用卷积神经网络开发了光学字符读取系统(Optical Character Recognition, OCR)
2012--AlexNet提出,得到GPU计算集群支持的复杂卷积神经网络多次成为ImageNet大规模视觉识别竞赛的优胜算法
- 命名:源自其作者名Alex
- 成就:ILSVRC 2012 冠军
- 网络基本架构为:conv1 (96) relu1 norm1 -> pool1 -> conv2 (256) relu2 norm2 -> pool2 -> conv3 (384) relu3 -> conv4 (384) relu4 -> conv5 (256) relu5 -> pool5 -> fc6 (4096) relu6 dropout6-> fc7 (4096) relu7 dropout7 -> fc8 (1000) -> softmax。
- 参数量:60M参数
关键改进:
- 使用了ReLU激活函数:
- 使得网络训练更快:梯度下降的训练时间更短,比tanh快几倍,tanh和sigmo