文献精读——(第一篇)《深度卷积神经网络在计算机视觉中的应用研究综述》

本人学习机器学习、深度学习已经有一段时间了,考虑到毕业之后的就业方向和自己的毕业论文,最终确定主要研究方向为图像识别,主要研究的算法为基于CNN的各种图像分类模型(研究深度学习一定要确定研究领域,毕竟时间有限,不要盲目的看许多深度学习文献,最后杂而不精)。如果,毕业之前有时间或者读博的话会从事目标检测相关的研究。同时,如果有志同道和之士,可以联系我,大家相互学习,如果人多可以建个群,哈哈。

正文:《深度卷积神经网络在计算机视觉中的应用研究综述》笔记

摘要部分

着大数据时代的到来,含更多隐含层的深度卷积神经网络(Convolutional neural networks,CNNs)具有更复杂的网络结构,与传统机器学习方法相比具有更强大的特征学习和特征表达能力。使用深度学习算法训练的卷积神经网络模型自提出以来在计算机视觉领域的多个大规模识别任务上取得了令人瞩目的成绩。本文首先简要介绍深度学习和卷积神经网络的兴起与发展,概述卷积神经网络的基本模型结构、卷积特征提取和池化操作。然后综述了基于深度学习的卷积神经网络模型在图像分类、物体检测、姿态估计、图像分割和人脸识别等多个计算机视觉应用领域中的研究现状和发展趋势,主要从典型的网络结构的构建、训练方法和性能表现3个方面进行介绍。最后对目前研究中存在的一些问题进行简要的总结和讨论,并展望未来发展的新方向。

关键词:深度学习;卷积神经网络;图像识别;目标检测;计算机视觉

总结:

1)与传统神经网络比好在哪里? 答:具有更强大的特征学习和特征表达能力。

2)成绩如何:多个大规模识别任务上取得了令人瞩目的成绩(本人主要研究特定领域的“小规模”识别任务,希望有较好的识别效果)

3)摘要主要从卷积网络的基本结构、卷积网络的应用领域(重要介绍典型网络)

引言(不要觉得没有用,它会为你捋清知识脉络,如果写论文的话会启发你的研究方向)

正文笔记

图像识别是一种利用计算机对图像进行处理、分析和理解,以识别各种不同模式的目标和对象的技术,是计算机视觉领域的一个主要研究方向,在以图像为主体的智能化数据采集与处理中具有十分重要的作用和影响。使用图像识别技术能够有效地处理特定目标物体的检测和识别(如人脸、手写字符或是商品)、图像的分类标注以及主观图像质量评估等问题。目前图像识别技术在图像搜索、商品推荐、用户行为分析以及人脸识别等互联网应用产品中具有巨大的商业市场和良好的应用前景,同时在智能机器人、无人自动驾驶和无人机等高新科技产业以及生物学、医学和地质学等众多学科领域具有广阔的应用前景。

主要交待研究背景,说明图像识别是什么,(总感觉他说的图像分类是基于检测后的分类)

早期的图像识别系统主要采用尺度不变特征变换(Scale—invariant feature transform,SIFT)和方向梯度直方图(Histogram of oriented gradients,HOG)等特征提取方法,然后将提取到的特征输入至分类器中进行分类识别。这些特征本质上是一种手工设计的特征,对不同的识别问题,提取到的特征好坏对系统性能有着直接的影响,因此需要研究人员对所要解决的问题领域进行深入的研究,以设计出适应性更好的特征,从而提高系统的性能。这个时期的图像识别系统一般都是针对某个特定的识别任务,且数据的规模不大,泛化能力较差,难以在实际应用问题当中实现精准的识别效果。

介绍早期图像识别的方法:使用SIFT和HOG提取特征,再用分类器分类。

缺点是:特征需要人工设计、需要结合识别的相关领域。

注:所以使用深度学习可以自主提取特征,而在学习过程中同时学习分类器以及分类器所需要的变换特征就是表征学习

深度学习是机器学习的一个分支,是近些年来机器学习领域取得的重大突破和研究热点之一。2006年,加拿大多伦多大学教授、机器学习领域的泰斗Geoffery Hinton和他的学生Ruslan Salakhutdinov在国际顶尖学术刊物《Science))上发表了一篇文章,第一次提出了深度学习的思想。这篇文章主要提出了两个观点:(1)含多个隐层的人工神经网络具有十分强大的特征学习能力,通过训练模型所提取的特征对原始输人数据具有更抽象和更本质的表述,从而有利于解决特征可视化或分类问题;(2)通过使用无监督学习算法实现一种称作“逐层初始化”的方法,实现对输入数据信息进行分级表达,从而可以有效地降低深度神经网络的训练难度。随后,深度学习在学术界和工业界持续升温,在语音识别、图像识别和自然语言处理等领域获得了突破性的进展。2011年以来,研究人员首先在语音识别问题上应用深度学习技术,将准确率提高了20%~30%,取得了十多年来最大的突破性进展。仅仅一年后,基于卷积神经网络的深度学习模型就在大规模图像分类任务上取得了非常大的性能提高,掀起了深度学习研究的热潮。文献提出了两种基于深度神经网络的声学建模方法,相比于传统建模方法提取到了更有效的声学特征,并在维吾尔语的大词汇量连续语音识别应用上取得了较大的性能提升。目前,谷歌、微软和Facebook等众多国际互联网科技企业争相投入大量的资源,研发布局大规模的深度学习系统。

主要介绍深度学习的发展

重点:

第一次提出了深度学习的思想。这篇文章主要提出了两个观点:(1)含多个隐层的人工神经网络具有十分强大的特征学习能力,通过训练模型所提取的特征对原始输人数据具有更抽象和更本质的表述,从而有利于解决特征可视化或分类问题;(2)通过使用无监督学习算法实现一种称作“逐层初始化”的方法,实现对输入数据信息进行分级表达,从而可以有效地降低深度神经网络的训练难度。(感觉大部分还是BP训练)

注:语音识别也用卷积网络,不研究暂时不看

 

1、卷积网络(基本概念不介绍,主要说一下疑问)

1.2 网络结构部分

注意S1层与C2层之间,卷积操作不是指对一个特征图进行操作,应该是卷积核对每个或者个别特征图都进行操作并求和。之后的C2层与S2层倒是正确,毕竟一个卷积核一个特征图

1.3卷积操作

卷积操作都只知道,这里不做赘述,这里主要说以下几个问题:

为什么图像可以用卷积:自然图像有其固有特性,即对于图像的某一部分,其统计特性与其他部分相同。这意味着在这一部分学习到的特征也能用在另一部分上,因此对于图像上的所有位置,可以使用同样的学习特征。(感动,别光想着参数减少)

卷积操作局部图像后,会出现什么问题:遍历整个图像后所提取的特征要输入到分类器中,将如此高维度的特征输入至分类器中进行训练需要耗费非常庞大的计算资源,同时也会产生过拟合(因为参数过多,模型的容量越大,越易提取出过于复杂的函数,进而泛化能力弱)

1.4池化操作

池化操作用于减少参数,那为什么可以用它来减少参数呢:

1)由于图像具有一种“静态性”的属性,在图像的一个局部区域得到的特征极有可能在另一个局部区域同样适用。因此,可以对图像的一个局部区域中不同位置的特征进行聚合统计操作。(所以说池化的本质是对特征进行统计,之前看得不细,惭愧惭愧)

2)如果选择图像中的连续范围作为池化区域(即连续滑动),同时只对相同的隐含神经元产生的卷积特征使用池化,则这些池化后的特征单元具有平移不变性。原始图像中的物体产生了一个较小的平移,依然可以得到相同的池化特征,分类器也依然能够输出相同的分类结果。例如,如果使用最大池化,可能图像平移后产生的新特征不变(反正取最大)。

2、图像分类

什么是图像分类:图像分类问题是通过对图像的分析,将图像划归为若干个类别中的某一种,主要强调对图像整体的语义进行判定。

主要用哪些数据集:CIFAR一10/100,Caltech-101/256u和ImageNet,其中ImageNet包含超过15 000 000张带标签的高分辨率图像,这些图像被划分为超过22 000个类别(没GPU就跑跑CIFAR一10吧)

主要的图片分类模型:这些大家都知道,我主要说模型的改进点

1)AlexNet:中最后一层采用softmax进行分类。该模型采用(ReLU)来取代传统的Sigmoid和tanh函数作为神经元的非线性激活函数,并提出了Dropout方法来减轻过拟合问题。(看一下这篇论文是怎么证明过拟合的,不然自己写论文的时候总是不会说,哈哈)

2) ILSVRC2013的获胜队伍Clarifai叼提出了一套卷积神经网络的可视化方法,运用反卷积网络对AlexNet的每个卷积层进行可视化,以此来分析每一层所学习到的特征,从而加深了对于卷积神经网络为什么能够在图像分类上取得好的效果的理解,并据此改进了该模型,取得了11.7%的错误率。(使用反卷积可视化,改进模型是主流的CNN改进方式,反卷积一定要会)

3)GoogleNet:提出了Inception模块,它的主要思想是想办法找出图像的最优局部稀疏结构,并将其近似地用稠密组件替代(为什么能找到最优局部稀疏结构?)。这样做一方面可以实现有效的降维,从而能够在计算资源同等的情况下增加网络的宽度与深度;另一方面也可以减少需要训练的参数,从而减轻过拟合问题,提高模型的推广能力。

4)SPP-Net:新的池化方法,叫作空间金字塔池。空间金字塔池化的作用是对任意维数的输入均产生固定维数的输出,从而使网络
可以接受任意大小的图像作为输入。(原因:因为全连接层,多了我就不说了)

5)ReLU—Nets:提出参数化修正线性单元(PReLU)。该激活函数可以适应性地学习修正单元的参数,并且能够在额外计算成本可
以忽略不计的情况下提高识别的准确率。(没啥多说的,看这个论文就是为看看他怎么比较计算成本的)

6)BN:Google的研究人员将归一化的方法运用于网络内部的激活函数中,对层与层之间的传输数据进行归一化。由于训练时使用随机梯度下降法,这样的归一化只能在每个mini—batch内进行,所以被命名为Batch normalization。该方法可以使得训练时能够使用更高的学习率,减少训练时间;同时减少过拟合,提高准确率。(原因:只能梯度下降中归一化,为什么归一化)

7)Google DeepMind(特殊说明一下,尽管卷积神经网络已经拥有强大的图像学习能力,然而这类模型缺乏对于图像空间不变性的学习,尤其是缺乏对于图像旋转不变性的学习):提出了Spatial transformer提高卷积神经网络对于图像空间不变性的学习能力,来加强其图像分类的准确率。

Spatial transformer:可以在卷积神经网络的任意深度位置加入的模块,它可以将输入数据进行一系列空间变换,使得输出特征更加易于进行分类。在训练过程中,该模块可以自主地学习到空间变换所需要的参数,并且不需要在训练中增加任何额外的监督处理。

8)ResNet:太有名了,啥也不说了。

3、物体检测

与图像分类比起来,物体检测是计算机视觉领域中一个更加复杂的问题,因为一张图像中可能含有属于不同类别的多个物体,需要对它们均进行定位并识别其种类。因此,在物体检测中要取得好的效果也比物体分类更具有挑战性,运用于物体检测的深度学习模型也会更加复杂。

R—CNN模型:该模型首先使用Selective search这一非深度学习算法来提出待分类的候选区域,然后将每个候选区域输入到卷积神经网络中提取特征,接着将这些特征输入到线性支持向量机中进行分类。为了使得定位更加准确,R—CNN中还训练了一个线性回归模型来对候选区域坐标进行修正,该过程被称为Bounding box regression。(先选区域,再分类,两个过程)

Fast R—CNN

Fast R—CNN设计了一个多任务损失函数,来同时训练用于分类和修正候选区域坐标信息的两个全连接层。Fast R—CNN中不再需要额外的训练SVM分类器,实现了从提取图像特征到完成检测的一体化。

DeeplD-Net:。该模型在R—CNN训练流程的基础上进行了进一步完善,改进了模型预训练方式,提出了Bounding box rejection Contextual modeling等新的网络训练步骤。除此之外,在卷积神经网络结构中,DeeplD-Net在可变形部件模型(Deformable part model)的启发下设计了新的池化层,叫作Deformation constrained pooling(Def-pooling)层。这一池化层可以实现对图像局部信息的学习,并使得模型能够更好地适应于输入图像中某些部件位置发生偏移的情况。

Faster R—CNN:aster R—CNN网络在Fast R—CNN模型的基础上,在最后一层卷积层输出的特征映射上设置了一个滑动窗,该滑动窗与候选区域网络进行全连接。对于滑动窗滑过的每个位置,模型中给定若干个以滑动窗中心为中心、不同尺度与长宽比的锚点,候选区域网络将以每个锚点为基准相应地计算出一个候选区分类层回归层卷积特征映射图域。候选区域网络是一个全卷积网络口“,网络的第一层将滑动窗的输入特征映射到一个较低维的向量,然后将该向量输入到两个并列的全连接子层,其中分类层用于输出该向量对应图像属于物体还是背景的概率分布,回归层用于输出候选区域的坐标信息。为了让候选区域网络与用于检测的Fast R—CNN模型的前几层卷积层能够实现共享,从而提高这些卷积层所提取特征的利用率与运行效率,Faster R—CNN提出了一套多阶段训练算法进行网络训练。由于Faster R—CNN提出候选区域的过程是根据用于检测的Fast R-CNN网络的前几层卷积层所提取的特征,且候选区域网络也在GPU上实现,从而提出
候选区域的时间开销大大减少,检测所需时间约为原来时间的1/10,且准确率也有所提高,说明候选区域网络不仅能更加高效地运行,还能提高所产生的候选区域的质量。

4、姿态估计

除了大家熟知的图像分类和目标检测任务外,实际上随着各种网络游戏的发展、动画视频的普及,正确快速地识别和理解图像中人的姿态动作也成为了一个非常热门的话题。这种问题统称为姿态检测。姿态检测中包含许多类别和子问题,姿态估计就是其中之一。姿态估计是时下最为重要的计算机视觉挑战性问题之一,原因在于它可以被很快地应用到人物追踪、动作识别以及视频相关的视频分析上,比如视频监控和视频搜索等实际应用面非常广。

姿态估计的主要任务就是,给定一张图,图中会有一个人,你需要给出这个人的姿态动作是什么样的。人们会提前选定出比较重要的几个人体关节(比如肩膀、肘部、脖子等),然后用一个固定维数(比如维和11维)的坐标向量来表示这个动作,每一维都表示图中人物的重要关节所在的具体坐标。换句话说,你需要给出一个火柴人的形状来表示这个人的姿态。(不研究多了就不说了)

5、图像分割

深度神经网络在图像分类、目标检测和姿态估计等方面取得了巨大的成功,进一步的发展便是对图像上每个像素点的预测,这个任务就是图像分割。图像分割是这样一类问题:对于一张图来说,图上可能有多个物体、多个人物甚至多层背景,希望能做到对于原图上的每个像素点,能预测它是属于哪个部分的(人、动物、背景⋯⋯)(对像素点分类)

6、人脸识别

人脸识别是图像识别领域一个非常重要的研究方向,由于人脸图像具有易采集的特性,因此受到了许多行业的关注,具有非常广阔的应用前景和巨大的商业市场。人脸识别技术主要包括人脸检测、人脸特征提取和人脸识别3个过程

7、结束语

正文笔记

深度学习目前是一个非常热门的研究方向,利用卷积神经网络的卷积层、池化层和全连接层等基本结构,就可以让这个网络结构自己学习和提取相关特征,并加以利用。这种特性对许多研究提供了许多便利,可以省略过往非常繁杂的建模过程。

深度学习优势:自主学习,又快又好
此外,深度学习现在在图像分类、物体检测、姿态估计和图像分割等方面都已经有了非常大的成果和进步。一方面,深度学习应用面非常广,而且通用性强,完全可以继续努力将其拓展到其它应用领域。另一方面,深度学习仍有许多潜力可挖,值得不断去探索和发现。说明深度学习目前状况,引出发展方向,承上启下。

另一方面,深度学习仍有许多潜力可挖,值得不断去探索和发现。就未来而言,尽管之前讨论的许多内容都是有监督的学习(比如训练的网络最后一层会根据真实值计算一个loss值,进而进行参数调整),并且有监督的学习确实取得了非常大的成功。深度学习在无监督的学习方面的应用很可能是未来的发展趋势。毕竟,就人或者动物而言,大部分情况下,我们并不是通过知道事物的名字来了解它是什么的。

在未来的计算机视觉领域,预计基于深度学习的卷积神经网络和循环神经网络(Recurrent neural network,RNN)将会成为十分流行的网络模型,并将在更多的应用研究中取得更好的突破与进展。

此外,结合强化学方法来训练一个端到端的学习系统逐渐成为可能,从而使得该学习系统具有自主学习能力,能够主动去学习相关特征的表示和抽象。目前,结合深度学习与强化学习的研究尚处于起步阶段,但已经有一些这方面的研究工作在多物体识别任务和进行视频游戏的学习口上取得了不错的表现,这也是让许多相关领域的研究者们兴奋的原因之一。

 

 

卷积网络的未来:

1)无监督化

2)与RNN结合(感觉不少人都做了)

3)与强化学习结合(查一下端到端)

值得注意的是,自然语言处理同样也是深度学习未来能够大展身手的潜在舞台,比如说,对于一篇文章或者一大段文字,能够设计出基于一些深度神经网络模型(比RNN)的方法和策略,能够有效地理解文本内容。总体来说,人们现在使用深度学习以及一些简单的推理,就已经在语音和图像领域取得了非常不错的成果。有理由相信,如果将目前对于网络提取的特征表示能够进一步优化,使得其能够更“自如”地表达特征,再加上一些复杂推理,那么深度学习将会在人工智能的各个应用方面取得更大的进展。

深度学习的未来总结

都说完了,之后会根据这篇文献对一些模型进行总结,讲真的听网课不如看论文,哈哈哈哈。

  • 3
    点赞
  • 35
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值