常用的深度学习模型

神经网络有时可以与乐高积木进行比较,在那里你可以构建几乎任何简单到复杂的结构,你的想象力可以帮助你构建。

计算机视觉任务类型

目标识别:物体识别是得到一个原始的图像,任务是给出目标位置和识别物体属于哪个类,另外还有人脸识别,行为识别等

三维重建:摄像机标定,立体匹配

图像描述:根据给定图像,给出描述文字等

深度相机:RGB-D相机,例如手势识别、骨骼跟踪、增强现实等

视觉导航:视觉SLAM,例如ORB-SLAM

图像分割:图像分割是一项复杂的任务,目标是将每个像素映射到它的合法类,例如语义分割、实例分割等

深度学习模型

现在我们已经了解了什么是高级体系结构,并探索了计算机视觉的任务,下面列出最重要的体系结构及其描述:

AlexNet

AlexNet是深度学习的先驱之一——Geoffrey Hinton和他的同事们引入的第一个深层架构。它是一个简单而又强大的网络架构,它为深度学习的突破性研究铺平了道路。下面是作者提出的体系结构的表示。

AlexNet看起来是一个包含卷积层和池化层的简单架构,顶部是全连接层。区分这个模型的是它执行任务的规模和使用GPU进行训练。在20世纪80年代,CPU被用于训练神经网络。而AlexNet仅通过使用GPU提升了10倍的训练速度。

虽然现在有点过时了,但是AlexNet仍然在所有任务上应用深度神经网络的起点,无论是计算机视觉还是语音识别。

Paper     Code

VGG Net

VGG网络是由牛津大学视觉图形组的研究人员引入的(因此有了VGG这个名字)。这个网络的特点是它的金字塔形状,最接近图像的底层是宽的,而最上层是深的。

如图所示,VGG包含随后的卷积层和池化层。池层负责使层更窄。在他们的论文中,他们提出了多种这种类型的网络,随着架构深度的变化。

VGG的优势是:
对于特定任务的基准测试来说,这是一个非常好的体系结构。
此外,VGG的预培训网络在互联网上是免费的,所以它通常用于各种应用程序的开箱即用。

另一方面,它的主要缺点是,如果从头开始训练,训练速度非常慢。即使是在一个像样的GPU上,它也需要一个多星期才能投入使用。

Paper     Code

GoogleNet

GoogleNet(或先启网络)是谷歌研究人员设计的一类架构。谷歌是2014年ImageNet的赢家,在那里它被证明是一个强大的模型。

在这种体系结构中,随着深入(它包含22层,而VGG有19层),研究人员还提出了一种叫做初始模块的新方法。

如上所述,它与我们前面看到的顺序体系结构相比发生了巨大的变化。在单层中,存在多种类型的“特征提取器”。这间接地帮助网络更好地执行任务,因为训练网络本身在解决任务时有很多选择。它既可以选择对输入进行卷积,也可以直接将其池化。

最终的架构包含了这些叠在一起的初始模块的多个。甚至在GoogleNet中,训练也略有不同,因为大多数最顶层都有自己的输出层。这种细微差别有助于模型更快地收敛,因为对于层本身有联合训练和并行训练。

GoogleNet的优点是:一个预先训练好的GoogleNet的大小比VGG要小。VGG模型可以有>500 MB,而GoogleNet只有96 MB

GoogleNet本身并没有直接的缺点,但是它提出了对体系结构的进一步修改,从而使模型执行得更好。其中一个变化被称为Xception网络,在这个变化中,inception模块发散的极限(如上图所示,是GoogleNet中的4)增大了。它现在理论上可以是无限的(因此被称为极端的开端!)

Paper     Code

ResNet

ResNet是真正定义了深度学习体系结构的深度架构之一。残差网络(简称ResNet)由多个后续残差模块组成,这些模块是ResNet体系结构的基本构件。残差模块的表示如下

简单地说,一个残差模块有两个选项,要么它可以对输入执行一组函数,要么它可以跳过这一步。

现在类似于GoogleNet,这些残差模块相互堆叠,形成一个完整的端到端网络。

ResNet还介绍了一些新技术:
使用标准的SGD而不是花哨的自适应学习技术。这是与一个合理的初始化函数,保持训练完整
对输入进行预处理的更改,其中输入首先被划分为补丁,然后进入网络

ResNet的主要优点是,可以使用数百甚至数千个残差层来创建网络并进行训练。这与通常的顺序网络稍有不同,在顺序网络中,随着层数的增加,性能升级会减少。

Paper     Code

ResNeXt

ResNeXt据说是目前最先进的对象识别技术。它构建在inception和resnet的概念之上,以实现一个新的和改进的体系结构。

Paper     Code

R-CNN

基于区域的CNN架构被认为是应用于目标检测问题的所有深度学习架构中最有影响力的一个。为了解决检测问题,RCNN做的是尝试在图像中出现的所有对象上绘制一个边界框,然后识别图像中的对象。它的工作原理如下:

Faster-RCNN结构

Paper     Code

YOLO

YOLO是目前最先进的实时系统,建立在深度学习的基础上,以解决图像检测问题。如下图所示,首先将图像划分为定义好的边界框,然后并行运行所有这些框的识别算法,以识别它们属于哪个对象类。在识别了这些类之后,它继续聪明地合并这些框,以形成围绕对象的最佳边界框。

所有这些都是平行进行的,所以它可以实时运行;每秒处理多达40幅图像。

尽管与RCNN相比,它的性能有所下降,但它仍然具有实时性的优势,可以在日常问题中使用。下面是YOLO的架构表示

Paper     Code

SqueezeNet

snizenet体系结构是一个更强大的体系结构,在移动平台等低带宽场景中非常有用。这个架构只占用了4.9MB的空间,而《盗梦空间》占用了~100MB的空间!这种剧烈的变化是由一种叫做消防模块的特殊结构引起的。下图是消防模块的表示。

snizenet的最终架构如下:

Paper     Code

SegNet

SegNet是一种用于解决图像分割问题的深度学习架构。它由一系列的处理层(编码器)和相应的一组解码器组成,按像素分类。下面的图片总结了赛格网的工作。

SegNet的一个关键特征是它保留了分割图像中的高频细节,因为编码器网络的合用索引连接到解码器网络的合用索引。简而言之,信息传递是直接的而不是卷积的。SegNet是处理图像分割问题的最佳模型之一

Paper     Code

GAN

GAN是一种完全不同的神经网络体系结构,其中一个神经网络用来生成一个全新的图像,这个新的图像没有出现在训练数据集中,但足够真实地出现在数据集中。例如,下图是对甘斯的分解。在本文中,我已经介绍了GANs是如何工作的。如果你感到好奇,请仔细阅读。

Paper     Code

  • 71
    点赞
  • 484
    收藏
    觉得还不错? 一键收藏
  • 5
    评论
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值