Deep learning for visual understanding: A review视觉理解的深度学习:回顾

1.abstract

Deep learning algorithms are a subset of the machine learning algorithms, which aim at discovering multiple levels of distributed representations. Recently, numerous deep learning algorithms have been proposed to solve traditional artificial intelligence problems. This work aims to review the state-of-theart in deep learning algorithms in computer vision by highlighting the contributions and challenges from over 210 recent research papers. It first gives an overview of various deep learning approaches and their recent developments, and then briefly describes their applications in diverse vision tasks, such as image classification, object detection, image retrieval, semantic segmentation and human pose estimation. Finally, the paper summarizes the future trends and challenges in designing and training deep neural networks.

深度学习算法是机器学习算法的一个子集,旨在发现多个级别的分布式表示。最近,人们提出了许多深度学习算法来解决传统的人工智能问题。这项工作旨在通过强调 210 多篇近期研究论文的贡献和挑战来回顾计算机视觉深度学习算法的最新进展。它首先概述了各种深度学习方法及其最新发展,然后简要描述了它们在各种视觉任务中的应用,例如图像分类、目标检测、图像检索、语义分割和人体姿势估计。最后,论文总结了深度神经网络设计和训练的未来趋势和挑战。

2.传统人工智能

如语义解析、迁移学习、自然语言处理、计算机视觉等。

3.深度学习发展的原因

芯片处理能力(例如GPU单元)的大幅提升、计算硬件成本的大幅降低以及机器学习算法的长足进步

4.计算机视觉方法

4.1CNN 卷积神经网络   

4.1.1简介

卷积神经网络(CNN)是最著名的深度学习方法之一,其中多层以稳健的方式进行训练。人们发现它非常有效,也是各种计算机视觉应用中最常用的。

一般来说,CNN 由三个主要神经层组成,即卷积层、池化层和全连接层。

训练网络有两个阶段:前向阶段和后向阶段。首先,前向阶段的主要目标是用每层中的当前参数(权重和偏差)表示输入图像。然后使用预测输出来计算真实标签的损失成本。其次,基于损失成本,后向阶段用链规则计算每个参数的梯度。在前向和后向阶段进行足够的迭代之后,可以停止网络学习。

4.1.1.1卷积层(Convolutional layers):在卷积层中,CNN利用各种内核对整个图像以及中间特征图进行卷积,生成各种特征图。

卷积运算有三个主要优点:1)同一特征图中的权重共享机制减少了参数数量2)局部连接学习相邻像素之间的相关性3)对象位置的不变性。

4.1.1.2池化层(Pooling layers):通常,池化层位于卷积层之后,可用于减少特征图和网络参数的维度。平均池化和最大池化是最常用的策略。最大池化可以带来更快的收敛速度。近年来,出现了各种 CNN 变体的快速 GPU 实现,其中大多数都利用最大池化策略。

随机池化 Stochastic pooling

 最大池化的缺点是它对训练集的过度拟合很敏感,因此很难很好地推广到测试样本。为了解决这个问题,Zeiler 等人提出了一种随机池方法,通过根据多项分布随机选择每个池区域内的激活,用随机过程代替传统的确定性池操作。它相当于标准最大池化,但具有输入图像的许多副本,每个副本都有较小的局部变形。这种随机性有助于防止过度拟合问题。   

空间金字塔池化 Spatial pyramid pooling     

空间金字塔池化可以从任意图像(或区域)中提取固定长度的表示,生成处理不同尺度、大小、长宽比的灵活解决方案,并且可以应用于任何 CNN 结构以提高该结构的性能

Def-pooling

处理变形是计算机视觉中的一个基本挑战,特别是对于物体识别任务。最大池化和平均池化在处理变形方面很有用,但它们无法学习对象部分的变形约束和几何模型。为了更有效地处理变形,Ouyang 等人引入了一种新的变形约束池化层,称为def-pooling层,通过学习视觉模式的变形来丰富深度模型。它可以在任何信息抽象级别替代传统的最大池层。

4.1.1.3全连接层(Fully-connected layers)

全连接层的性能与传统神经网络类似,包含 CNN 中约 90% 的参数。它使我们能够将神经网络前馈到具有预定义长度的向量中。我们可以将向量前馈到一定数量的类别中进行图像分类,或者将其作为特征向量进行后续处理。

4.1.2训练策略,防止过拟合

Dropout&DropConnect

在每个训练案例中,算法将随机省略一半的特征检测器,以防止对训练数据进行复杂的协同适应并增强泛化能力。源自 Dropout 的一种众所周知的概括称为 DropConnect ,它随机删除权重而不是激活。实验表明,它可以在各种标准基准上取得有竞争力甚至更好的结果,尽管速度稍慢。

 数据增强

当 CNN 应用于视觉对象识别时,通常会利用数据增强来生成额外的数据,而不会引入额外的标记成本。数据增强的第一种形式包括生成图像平移和水平反射,第二种形式包括改变训练图像中 RGB 通道的强度。  

预训练与微调

预训练是指使用预先训练的参数而不是随机设置的参数来初始化网络。它在基于 CNN 的模型中非常流行,因为它具有加速学习过程并提高泛化能力的优点。

微调是细化模型以适应特定任务和数据集的关键阶段。一般来说,微调需要新训练数据集的类标签,用于计算损失函数。

others

除了上述正则化方法之外,还有其他常见的方法,例如权重衰减、权重捆绑等等。权重衰减的工作原理是在成本函数中添加一个额外的项来惩罚参数,防止它们对训练数据进行精确建模,从而有助于推广到新的示例。权重捆绑允许模型通过减少卷积神经网络中的参数数量来学习输入数据的良好表示。

4.1.3CNN架构

随着CNN方案在计算机视觉领域的最新发展,出现了一些著名的CNN模型。

AlexNet是一个重要的 CNN 架构,由五个卷积层和三个全连接层组成。该网络在 ImageNet 上进行训练,并集成了各种正则化技术,例如数据增强、dropout 等。该模型有两个主要缺点:1)它需要固定的图像分辨率; 2)对于为什么它表现得这么好还没有清楚的理解。

4.2RBM 受限玻尔兹曼机

3.自动编码器

4.稀疏编码

        

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值