openharmony啃论文俱乐部——A Survey on Deep Learning: Algorithms, Techniques, and Applications论文阅读

A Survey on Deep Learning: Algorithms, Techniques, and Applications


成员:
惠州学院大二在校生-庄思杰
惠州学院大三在校生-邹旭智
导师: 罗除


Abstract

随着深度学习逐渐成为该领域的领导者,机器学习领域正在见证它的黄金时代。深度学习使用多层来表示数据的抽象,以建立计算模型。一些关键的使能深度学习算法,如生成对抗网络,卷积神经网络和模型传输已经完全改变了我们对信息处理的感知。

然而,在这个快节奏的领域背后存在着一个理解的缝隙,因为它以前从未从多视域的角度来表示。由于缺乏核心理解,这些强大的方法就像黑盒机器一样,从根本上抑制了开发。此外,深度学习一直被认为是解决机器学习中所有障碍的灵丹妙药,这与事实相去甚远。这篇文章介绍了在视觉,音频和文本处理的历史和最近的状态的方法的全面回顾;社会网络分析;以及自然语言处理,然后深入分析深度学习应用中的轴心和突破性进展。


Introduction

近年来,机器学习的研究越来越受欢迎,并被大量应用,包括多媒体概念检索、图像分类、视频推荐、社会网络分析、文本挖掘等。在各种机器学习算法中,“深度学习”(deep learning)也被称为表示学习,被广泛应用于这些应用中。数据的爆炸性增长和可用性,以及硬件技术的显著进步,导致了分布式和深度学习方面的新研究的出现。深度学习源于传统的神经网络,其性能明显优于其前辈。它利用神经元之间转换的图技术来开发多层次的学习模型。许多最新的深度学习技术已经被提出,并在不同类型的应用中展示了有前景的结果,如自然语言处理(NLP)、视觉数据处理、语音和音频处理,以及许多其他知名的应用。
深度学习算法以自动化的方式进行特征提取,使得研究人员可以用最少的领域知识和人力来提取鉴别特征。这些算法包括数据表示的分层结构,其中高级特征可以从网络的最后一层提取,而低级特征则从较低层提取。这类架构最初的灵感来自于模拟人类大脑中关键感觉区域的人工智能(AI)过程。
我们的大脑可以自动从不同的场景中提取数据表示。输入是人眼接收到的场景信息,输出是分类后的物体。这突出了深度学习的主要优势。,它模仿了人类大脑的工作方式。
深度学习在许多领域都取得了巨大的成功,是现在机器学习社会最热门的研究方向之一。该调查从不同的角度对深度学习进行了概述,包括历史、挑战、机遇、算法、框架、应用以及并行和分布式计算技术。


Deep Learning Networks

在本节中,讨论了几种流行的深度学习网络,如递归神经网络(RvNN), RNN, CNN和深度生成模型。

1.Recursive Neural Network (RvNN)

图片.png
RvNN可以进行分层结构的预测,并使用合成向量对输出进行分类。
特点:引入Backpropagation ThroughStructure(BTS)对网络进行训练,在输出层再现输入层的模式
RvNN合并产生
(1)一个更大的多单元区域
(2)一个表示该区域的合成向量
(3)类标签

2.Recurrent Neural Network (RNN)

图片.png

RNN是在NLP和语音处理中广泛应用和流行的算法。
RNN的一个主要问题是它对消失和爆炸梯度的灵敏度,换句话说,在训练过程中,由于大量大小导数的相乘,梯度可能会呈指数衰减或爆炸。随着时间的推移,这种敏感度会降低,这意味着网络会随着新输入的进入而忘记初始输入。
解决方法:LSTM (Long - term - Memory)通过在其循环连接中提供内存块来处理这个问题,每个内存块包括存储网络时间状态的内存单元,
在极深网络中的剩余连接也可以显著缓解消失梯度问题。

3.Convolutional Neural Network (CNN)

图片.png
图中展示了一个用于图像分类的CNN架构示例,在典型的CNN中,会有许多的卷积层加上池化层,最后通常使用全连接层。
CNN被广泛应用于不同的应用领域,如NLP、语音处理、计算机视觉等。
CNN有三个主要的优点,即参数共享、稀疏交互和等价表示;使网络更快,更容易训练。
cnn中的每一层的输入x按三维排列,m × m × r,其中m表示输入的高度和宽度,r表示深度或通道数(如RGB图像的r = 3)。在每个卷积层中,有几个大小为n × n × q的滤波器(核)k,n应该比输入图像小,但q可以比r小或相同大小。正如前面提到的,滤波器是与输入卷积的本地连接的基础,共享相同的参数(权重Wk和偏差bk),以生成k个特征映射(hk),每个大小为m−n−1。
激活函数:
图片.png

4.Deep Generative Networks

(一)Deep Belief Networks (DBN)

图片.png
DBN是一种混合概率生成模型,最上面由两层无向连接的RBM(h3,h2),下面一层使用有向连接接受上层的输入(h1),最底层是可见层(v)
能量构型
h为隐层单元的二进制构型, a和b分别为可见和隐藏单元的偏差, 矩阵W表示各层之间的连接权值, v为可见层的状态向量,根据连接权值和单位偏差计算概率分布:图片.png

(二)Deep Boltzmann Machine (DBM)

图片.png
与DBN结构类似,唯一的不同既是将DBN中的有向SBN改为无向RBM
优点:性能相比DBN更为优越,能够学习更加复杂的数据,完成更高难度的语音和目标识别任务
缺点:需要设备有较高的计算能力

(三)Generative Adversarial Network (GAN)

图片.png
GAN由生成模型G和判别模型D组成
图片.png
D(t)的值来自于判别模型的数据,其值大小在0~1之间,Pdata是真实世界数据的分布,当模型数据与真实世界数据相等时,达到纳什平衡,Discriminator无法再识别两个数据。

(四)Variational Autoencoder (VAE)

VAE利用了数据的对数似然,并利用了从具有连续潜在变量的有向图形模型导出下界估计的策略
图片.png在Auto-Encoding Variational Bayes (AEVB)算法优化神经网络中encoder图片.png是生成模型中图片.png的近似,z为简单分布下的潜变量,即N (0, I),I为单位矩阵,它的目标是在整个生成过程中使训练集中每个x的概率最大化

DEEP LEARNING TECHNIQUES AND FRAMEWORKS

不同的深度学习算法有助于提高学习性能,拓宽应用范围,简化计算过程。然而,深度学习模型的训练时间过长仍然是研究人员面临的一个主要问题。此外,通过增加训练数据的大小和模型参数,可以大大提高分类精度。为了加速深度学习的处理,文献中提出了几种先进的技术。深度学习框架结合了模块化深度学习算法的实现、优化技术、分发技术和对基础设施的支持。开发它们是为了简化实施过程,促进系统级的开发和研究。
在本节中,将介绍其中一些具有代表性的技术和框架
图片.png

1.Unsupervised and Transfer Learning

近年来,生成模型如GANs和VAEs已经成为无监督深度学习的主导技术。在GANs中,该网络基于cnn,在视觉数据分析中表现出了无监督学习的优势,在其它工作,autoencoder可以被训练成一个高级特征提取器,应用于如人脸识别等方面。
在大规模数据集(如ImageNet)上预训练深度网络(如CNN),这种技术被称为迁移学习,由于很少有人拥有强大的GPU等硬件,所以迁移学习是一个好的选择,能够提高训练效率。迁移学习可以通过使用预训练网络作为固定的特征提取器(特别是对于小型的新数据集)或微调预训练模型的权值(特别是对于与原始数据集相似的大型新数据集)来实现。在后者中,模型应该继续学习以微调深度网络的全部或部分高级部分的权重。这种方法可以被认为是一种半监督学习,其中标记数据不足以训练整个深度网络。

2.Online Learning

Online Learning并不是一种模型,而是一种模型的训练方法,Online Learning能够根据线上反馈数据,实时快速地进行模型调整,使得模型及时反映线上的变化,提高线上预测的准确率。Online Learning的流程包括:将模型的预测结果展现给用户,然后收集用户的反馈数据,再用来训练模型,形成闭环的系统。
面临的挑战:(1) 时间复杂度;(2)具有时变分布的高速数据.

3.Optimization Techniques in Deep Learning

优化过程
训练DNN是一个优化过程,即寻找网络中使损失函数最小的参数。
存在的问题
SGD振荡:因为较低的学习率经过较长时间最终达到最优状态,而较高的学习率会更快地衰减损失,可能在训练过程引起波动;可以尝试类似于运动学,添加一个适当的动量,获得了更快的收敛速度,可以改善SGD的优化结果
解决方案
可以尝试类似于运动学,添加一个适当的动量,获得了更快的收敛速度,可以改善SGD的优化结果
引入权重衰减和学习率衰减来调整学习率,加快收敛速度
根据前几个阶段梯度调整学习率,有助于避免波动

4.Deep Learning in Distributed Systems

在分布式系统中训练模型主要有两种方法,即数据并行和模型并行。对于数据并行性,模型被复制到所有的计算节点,每个模型使用指定的数据子集进行训练。经过一段时间后,需要在节点之间同步权值的更新。相比之下,对于模型并行性,所有数据都用一个模型处理,每个节点负责模型中参数的部分估计。
数据并行
优点:异步更新不需要等待在主节点上更新参数,而是允许每个节点花更多的时间进行计算
去中心化可以显著降低网络通信成本
模型并行
优点:使大规模深度神经网络的训练和预测成为可能
缺点:每个节点只能计算结果的一个子集,需要同步才能得出完整结果
模型并行策略比数据并行策略的同步损失和通信开销更大(因为模型并行策略的每个节点在每个更新步骤都必须同步梯度和参数值)
一般来说,数据集越大,数据并行性就越有利。深度学习模型越大,越适合模型并行性

5.Deep Learning Frameworks

图片.png

  • Caffe:单机框架,不支持多节点执行,支持多gpu计算
  • DL4j:可配合hadoop和spark进行分布式计算
  • Torch:允许用户在运行时改变模型结构
  • Neon,Theano:支持并行及多GPU,无法多节点计算(用Python开发的框架,在系统和内核级执行代码优化,因此训练速度通常优于其它框架)
  • MXNet:支持接口众多(c++,py,js,scala,perl,matlab,go,julia),支持架构中设计中的计算图声明和命令式计算声明,支持数据并行和模型并行,遵循参数服务器方案,支持分布式计算,功能全面,性能优化不如其它框架
  • TensorFlow:面向基于静态计算图的深度神经网络,提供了不同级别的并行和分布式操作,以及设计良好的致命容错能力
  • CNTK:有专门用于神经网络实现的高级脚本语言BrainScript,支持GPU/CPU模式,消息传递接口支持分布式计算,将神经网络建模为有向图,图中的每个节点代表一个操作或一个过滤器,每个边代表数据流

VARIOUS APPLICATIONS OF DEEP LEARNING

目前,深度学习的应用领域包括但不限于自然语言处理(如句子分类、翻译等)、视觉数据处理(如计算机视觉、多媒体数据分析等)、语音和音频处理(如增强、识别等)、社会网络分析、医疗保健等。
image.png
::: hljs-center

一些主要的深度学习应用程序

:::

1.Natural Language Processing

NLP(自然语言处理)是一系列的算法和技术,主要专注于教计算机理解人类语言。一些NLP任务包括文档分类、翻译、释义识别、文本相似性、摘要和问题回答。由于人类语言结构的复杂性和模糊性,自然语言处理的发展具有挑战性。此外,自然语言具有高度的语境特异性,其字面意义会根据单词的形式、讽刺和领域特异性而变化。最近,深度学习方法已经能够证明在NLP任务中获得高精确度的几次成功尝试。

大多数NLP模型遵循一个相似的预处理步骤:(1)通过标记化将输入文本分解为单词;(2)将这些单词以向量或n-gram(N元模型)的形式重新生成。

用低维表示单词对于准确地感知不同单词之间的异同非常重要。当需要决定每个n-gram中包含的单词的长度时,问题就来了。这一过程是特定于上下文的,需要先验的领域知识。下面介绍了一些非常有效的方法来解决最著名的NLP任务。

Sentiment Analysis(情绪分析)

这是自然语言处理的一个分支,涉及对文本的检查和对作者的感觉或观点的分类。大多数情感分析的数据集都被标注为正面或负面,并通过主观性分类方法去除中性短语。一个流行的例子是斯坦福情感树银行(Standford Sentiment Treebank, SST),该数据集将电影评论分为五类(从非常负面到非常正面)。随着对SST的介绍,Socher等人提出了一种递归神经张量网络(RNTN),该网络利用词向量并解析树来表示一个短语,利用基于张量的合成函数捕捉元素之间的相互作用。当涉及到句子级分类时,这种递归方法是有利的,因为语法通常显示树状结构。

Machine Translation(机器翻译)

深度学习在传统自动翻译方法的改进中发挥了重要作用。Cho等人引入了一种新的基于RNN的编码和解码架构来训练神经机器翻译(NMT)中的单词。

RNN Encoder-Decoder框架使用两个RNN:一个将输入序列映射为固定长度的向量,而另一个RNN将向量解码为目标符号。
RNN编码器-解码器的缺点:性能下降,因为输入的符号序列变得更大。
通过引入动态长度向量和共同学习对齐和翻译过程解决了这个问题。即执行二分搜索,寻找对翻译最有预测性的词性。尽管如此,最近提出的翻译系统在处理含有罕见词的句子时,计算成本高,效率低。
因此,谷歌提出了神经机器翻译(Neural Machine Translation, GNMT)系统,在字符级模型提供的灵活性和字级模型的效率之间引入了一种平衡。GNMT是一个深度LSTM网络,它使用了8个编码器和8个解码器层,使用基于注意力的机制连接。
首次引入了基于注意的方法对NMT进行一般性的改进。该模型在WMT的14个英语-法语和英语-德语基准测试中取得了最先进的分数。

Paraphrase Identification(释义识别)

释义识别是对两个句子进行分析,并根据其潜在的隐含语义预测其相似程度的过程。
它是一个关键的特性,对一些NLP工作(如抄袭检测、问题回答、上下文检测、摘要和领域识别)非常有益。

ABCNN (Attention-Based CNN, ABCNN)是最近提出的一种深度学习架构,目的是确定两个句子之间的相互依赖关系。除了释义检测外,它还被用于回答选择和文本蕴涵。

Summarization(摘要)

自动摘要可以从大型文本文档中提取最重要、最相关的信息。一个良好表示的摘要可以有效地减少文本的大小,而不会丢失最重要的信息。这可以大大减少分析基于文本的大型数据集所需的时间和计算量。

Question Answering(回答问题)

一个自动问答系统应该能够解释一个自然语言问题,并使用推理返回一个适当的答复。现代的知识库,如著名的FREEBASE数据集,在这个领域蓬勃发展,并跳出了手工为特定领域制作特性和规则集的时代。本文提出的问答(Question answer, QA)框架基于CNN,采用基于语料库的方法回答保险领域的问题。

2.Visual Data Processing

深度学习技术已经成为各种先进多媒体系统和计算机视觉的主要组成部分。更具体地说,CNN在不同的现实任务中显示出了显著的结果,包括图像处理、目标检测和视频处理。本节将详细讨论过去几年提出的用于可视化数据处理的最新深度学习框架和算法。

Image Classification(图像分类)

LeNet-5是一个传统的CNN,它包括两个卷积层和一个子采样层,最后在最后一层以全连接结束。
AlexNet被认为是第一个在非常大的数据集(如ImageNet)上大幅改善图像分类结果的CNN模型。该网络采用了CNN的GPU实现,提高了训练效率和速度。数据增强和删除技术也被用来大大减少过拟合问题。

微软深度残差网络(简称ResNet)通过在CNNs中引入残差连接并设计超深度学习模型(50 - 152层)。
ResNeXT作为ResNet和VGGNet的扩展。这个简单的模型在一个残差块中包括几个分支,每个分支执行一个转换,最后通过求和操作聚合。这个通用模型可以通过其他技术(如AlexNet)进一步重构。ResNeXT使用了一半的层,比它的原始版本(ResNet)更好,并且改进了Inception-v3和ImageNet数据集上的Inception-ResNet网络。下图展示了图像分类(例如ImageNet)的深度和性能随时间的变化。监督图像分类问题被认为“解决”了。
image.png
::: hljs-center

随着时间的推移,在ImageNet分类中网络的前5个错误(%)和层。


:::

Object Detection and Semantic Segmentation(目标检测与语义分析)

近年来,深度学习技术在目标检测的发展中发挥了重要作用。在此之前,最好的目标检测性能来自具有一些低级特征(如SIFT, HOG等)和高级上下文的复杂系统。然而,随着新的深度学习技术的出现,目标检测也达到了一个新的进步阶段。这些进步是由诸如region proposal和region -based CNN (R-CNN)等成功的方法驱动的。

R-CNN利用深度网络引入了基于区域的目标定位方法,弥合了目标检测和图像分类之间的差距。此外,由于小目标检测数据集(如PASCAL)包含了不足以训练大型CNN网络的标记数据,因此利用了大数据集(如ImageNet)上的迁移学习和相关技术。
但是在R-CNN中,训练的计算时间和内存非常昂贵,尤其是在新的超深网络(如VGGNet)上。此外,目标检测步骤非常缓慢。后来,为了克服上述问题,对该技术进行了扩展,引入了Fast R-CNN和Faster R-CNN两种成功的技术。前者利用共享计算来加速原来的R-CNN,并训练出一个非常深入的VGGNet,而后者提出了一个区域提议网络(Region Proposal Network, RPN),可以实现几乎实时的目标检测。

一种实时对象检测被称为YOLO (You Only Look Once),它包含一个CNN。卷积网络同时对每个框进行边界框检测和类概率计算。YOLO的好处包括快速的训练和测试(每秒45帧)以及与以前的实时系统相比合理的性能。

与Fast/Faster R-CNN不同,最近的一种名为Region-based full Convolutional Networks (R-FCNs)的方法利用了一种完全卷积网络,可以共享图像上几乎所有的计算。该方法使用ResNet分类器作为对象检测器,实现了比faster R-CNN方法更快的测试时间速度。最后,提出了单次多盒探测器(SSD)i,它比YOLO更快,其性能与基于区域的技术(如faster R-CNN)一样准确。它的模型是基于一个单独的CNN,生成一组固定大小的包围盒,以及盒子中对应的物体得分。

语义分割是在像素级上理解图像的过程,这对于自动驾驶、机器人视觉和医疗系统等现实应用是必要的。现在的问题是如何将图像分类转化为语义分割。近年来,许多研究都采用深度学习技术对图像像素级进行分类。例如,反卷积网络包括反卷积和unpooling模块来检测和分类分割区域。在另一项工作中,提出了一种完全卷积网络(FCN),并利用了AlexNet、VGGNet和GoogleNet等网络。最近,Facebook AI Research (FAIR)提出了Mask R-CNN,用于对象实例分割。它扩展了Faster R-CNN,增加了一个新的分支,在生成包围盒和类标签的同时,生成每个感兴趣区域的分割掩码预测。

该模型简单灵活,在COCO实例分割和目标检测方面均有良好的性能。

Video Processing(视频处理)

在早期的工作中,利用含有487节运动课程的大规模YouTube视频来训练CNN模型。该模型包括利用视频中的局部运动信息的多分辨率架构,并包括上下文流(用于低分辨率图像建模)和中央凹流(用于高分辨率图像处理)模块来对视频进行分类。
近年来,提出了一种新的视频处理技术——递归卷积网络。它将cnn应用到视频帧上进行视觉理解,然后将帧输入到rnn中分析视频中的时间信息。提出了一种新的RCN模型,该模型将RNN应用于cnn的中间层。此外,利用门控循环单元来利用RNN模块的稀疏性和局部性。该模型在UCF-101和YouTube2Text数据集上进行了验证。

三维CNN (C3D)在视频分析任务中表现出了比传统2D CNN更好的性能。它从视频输入中自动学习时空特征,同时对外观和运动建模。双流网络是另一组视频分析技术,分别对空间(RGB帧)和时间信息(光流)进行建模,并在网络的最后几层平均预测。这个网络在最近的一项名为膨胀3D ConvNet (I3D)的工作中得到了扩展,它利用了C3D的思想。还对Kinetics数据集进行了预训练。该方法能够显著提高UCF-101和HMDB-51数据集的动作识别性能。

Visual Datasets(视觉数据集)

图像和视频处理的显著进步不仅依赖于新的学习算法的开发和强大硬件的利用,而且至关重要地依赖于非常大规模的公共数据集。下表列出了几个用于训练深度学习算法的大规模可视化数据集。ImageNet可以认为是深度学习中最重要、最具影响力的数据集。它被用于训练所有流行的网络,如AlexNet, GoogleNet, VGGNet和ResNet,因为它的大规模标记图像集合。
image.png
::: hljs-center

深度学习的常用可视化数据集


:::
在许多研究中使用的小尺度图像数据集是CIFAR10/100。该数据集还用于评估图像分类任务中的许多dnn。如前所述,PASCAL VOC和Microsoft COCO被用于各种对象检测和语义分割任务。最后,YouTube-8M是一个由谷歌生成的相对较新的数据集,它在视频处理中扮演着与ImageNet相同的角色。它可以用作各种视频分析的基准数据集,包括事件检测、理解和分类。

3.Speech and Audio Processing

语音和音频处理是直接操作电子或模拟音频信号的过程。它是语音识别(或语音转录)、语音增强、电话分类和音乐分类所必需的。
ASR系统由语音信号预处理、特征提取、声学建模、语音单元识别和语言建模等多个部分组成。传统的ASR系统集成了隐马尔可夫模型(hmm)和高斯混合模型(GMMs)。hmm用于处理与时间空间相关的语音变化,而GMMs则代表声音单位的声学特性。建模过程非常耗时,并且需要非常大的训练数据集才能达到很高的精度。
DBN是该领域常用的深度学习模型之一,它显著提高了声学模型的性能。它以rbm作为构建模块来模拟语音中的频谱变化。它是第一个应用于带有预训练DNN模型的大型词汇数据集的应用程序。许多研究都遵循这一方向进行进一步的改进和效率评价。

使用连接主义者时间分类(Connectionist Temporal Classification, CTC)损失函数对具有多个卷积层的大型RNN(包括单向或双向层)进行端到端训练。提出的深度RNN架构被称为深度语音2,它利用了深度学习系统提供的容量,并在嘈杂环境中保持了整个网络的鲁棒性。此外,该方法还能快速应用于具有高性能识别器的新语言。

该模型部署在GPU服务器上的可伸缩性也得到了评估,该模型在低延迟的转录下获得了更高的效率。

除了语音识别任务,许多研究集中在语音情感识别(SER),语音增强(SE)和Seaker分离(SS),下表总结了最新的方法。
image.png
::: hljs-center

音频处理中的流行深度学习方法


:::

Speech Emotion Recognition(SER,语音情感识别)

情绪既影响语音特征,又影响言语的语言内容。SER在很大程度上依赖于用于分类的语音特征的有效性,可以分为两类:(1)高水平统计函数(HSFs)的全局模型(如均值、方差、中值、线性回归系数等)和(2)基于框架的动态低水平描述符(LLDs)的动态建模方法,如Mel频率倒谱系数(MFCC)、语音概率、谐波噪声比等。

一种新开发的具有一个隐藏层的神经网络,称为极限学习机(ELM),利用dnn进行语音级分类。该方法的评估使用了交互式情感二元动作捕捉(IEMOCAP)数据库的音轨,该数据库包含了来自10个演员的视听数据。实验结果表明,与基于HMM和svm的方法相比,ELM方法的性能得到了提高。

CNN除了展示了专注CNN模型在特征学习上的优势外,还被用于语音情感识别。这项工作在临时的IEMOCAP数据上取得了最先进的性能结果。

Speech Enhancement(SE,语音增强)

近年来,语音增强的目标是利用深度学习算法来提高语音质量。一种基于回归的DNN人工语音带宽扩展(ABE)框架,用于处理窄带语音信号输入的语音增强任务。利用TIMIT数据库和speech - data - car US (SDC)数据库对DNN模型进行训练。使用预训练的sigmoid单位,在NTT数据库上实现了超过1.18dB的上波段倒谱距离,0。与HMM/GMM基线相比,MOS得分有所提高。

语音分离(SS)可以看作是语音增强的一个子任务,其目的是将混响目标语音从空间扩散背景干扰中分离出来。与单说话人环境不同的是,说话人分离侧重于从一个多说话人同时讲话的混合演讲中重构每个说话人的讲话。早期针对单通道输入问题,提出了软掩模、调制频率分析、稀疏分解等多种方法。

4.Other Applications

除了上述应用之外,深度学习算法还应用于信息检索、机器人、交通预测、自动驾驶、生物医学、灾害管理等领域。请注意,深度学习已经显示了其在各种应用程序中发挥作用的能力,本节只介绍一些选定的应用程序。

Social Network Analysis(社会网络分析)

Facebook和Twitter等社交网络的流行使得用户能够分享大量的信息,包括他们的图片、想法和观点。由于深度学习在视觉数据和自然语言处理方面表现出了良好的性能,人们采用了不同的深度学习方法进行社会网络分析,包括语义评价、链接预测和危机响应。

语义评价是社交网络分析中的一个重要领域,它旨在帮助机器理解社交网络中帖子的语义。虽然已经提出了各种各样的技术来分析NLP中的文本,但这些方法可能无法解决社会网络分析中的几个主要挑战,如拼写错误、缩写、特殊字符和非正式语言。

Twitter可以认为是社交网络分析中最常用的情感分类来源。一般来说,情感分析的目的是确定审稿人的态度。

为此,SemEval提供了一个基于Twitter的基准数据集,并从2013年开始运行情感分类任务。另一个类似的例子是亚马逊,它最初是一家在线书店,现在是世界上最大的在线零售商。由于大量的购买交易,客户产生了大量的评论,使得Amazon数据集成为大规模情感分类的一个很好的来源。

在社交网络领域,链接预测也被广泛应用于推荐、网络完成、社交关系预测等场景。基于深度学习的方法被用于提高预测的性能,并解决可扩展性和非线性等问题。由于社交网络中的数据具有高度的动态性,我们对传统的深度学习算法进行了改进以适应这一特点。一种基于预训练rbm的有监督DBN方法用于链路预测,该过程被分为三个步骤,并为每个部分构造一个预先训练的基于rmb的DBN,其中每个DBN中包含两层rmb。第一步是无监督链接预测,其中使用编码的链接作为输入特征,以无监督的方式生成预测的链接。接下来,在特征表示步骤中,根据无监督链路预测的输出生成原始链路的表示,然后进行最后一步(即链路预测步骤),由链路表示监督生成预测的链路。

不同于语义分类和链接预测的任务,社会网络中的危机响应需要对自然或人为灾害的即时检测。危机应对的主要目标是识别有信息的帖子,并将它们分类成相应的主题类别,如洪水、地震、野火等。

Information Retrieval(信息检索)

深度学习对信息检索有很大的影响。深度结构化语义建模(DSSM)被提出用于文档检索和网络搜索,其中潜在语义分析由DNN进行,查询和点击数据一起用于确定检索结果。编码后的查询和点击数据通过词哈希映射到30k维,通过多层非线性投影生成128维的特征空间。通过训练提出的DNN,在点击数据的帮助下,将给定的查询与其语义联系起来。

Transportation Prediction(交通预测)

交通预测是深度学习的另一个应用。用于预测由于某一地点的拥塞而导致的交通网络拥塞演化。

然而,达到合理的准确性和效率的代价是失去灵敏度和特异性的模型。与现实世界的流量不同,互联网流量由于其时变特性而更加复杂,可以通过深度学习方法进行分析。与大多数最先进的方法相比,深度学习方法在预测方面至少提高了5.7%,在估计方面至少提高了23.4%。

Autonomous Driving(自动驾驶)

谷歌、特斯拉、Aurora、Uber等一大批大公司和独角兽初创公司都在研究自动驾驶汽车技术。早在2008年,Hadsell等人就使用了一个相对简单的DBN,用两个卷积层和一个最大子采样层来提取深度特征。他们通过训练分类器来区分特征向量,在越野地形中对远程视觉使用了一种自我监督学习技术。

最近,自动驾驶系统被分为机器人技术(识别与驾驶相关的物体)和行为克隆技术(学习从感官输入到驾驶动作的直接映射)。传统的机器人方法包括与驾驶相关的物体识别,并结合传感器融合、物体检测、图像分类、路径规划和控制理论。Geiger等人构建了一个经过修正的自动驾驶数据集,该数据集捕捉了广泛的有趣场景,包括汽车、行人、交通车道、路标、红绿灯等。

从图像中学习深度学习特征以进行可视性估计,然后做出高级驾驶决策。虽然自动驾驶技术现在更加成熟,但要处理不可预测和复杂的情况,仍有很长的路要走。

Biomedicine(生物医学)

深度学习是一个高度进步的研究领域,但其在组织病理学领域的影响是一个开放的机会。然而,这些方法在大数据集上的泛化滞后,这使得评估它们在现实世界中的相关性变得更加困难。一些使用cnn的研究方法从一个患者护理中心或实验室训练他们的模型。

该领域仍然存在一些局限和挑战,需要研究社区的关注。
随着机器学习的最新研究进展,深度学习技术可以完成更复杂的生物医学任务。更令人着迷的消息是,机器现在可以学习和揭示人类无法察觉的东西。最近,谷歌和Stanford的一个研究团队使用深度学习从视网膜眼底图像中发现新的知识。他们现在可以预测心血管危险因素,以前认为不能量化或存在于视网膜图像,也就是说,超出目前的人类知识。

Disaster Management Systems(灾害管理系统)

灾害影响社区、人类生活和经济结构。一个良好的灾害信息系统可以帮助公众和紧急行动中心(EOC)的人员了解当前的灾害情况,并协助救灾决策过程。目前,将深度学习方法应用于灾害信息系统的主要挑战是系统需要处理时间敏感的数据,并以近乎实时的方式提供最准确的援助。当意外事故或自然灾害突然发生时,需要收集和分析大量的数据。虽然已有研究将深度学习应用于灾害信息管理,但仍处于起步阶段,在深度学习方面具有很大的潜力。

DEEP LEARNING CHALLENGES AND FUTURE DIRECTIONS

随着深度学习的迅猛发展和研究领域的关注,深度学习在语音、语言和视觉检测系统中获得了非凡的发展势头。
然而,由于其具有挑战性的性质或缺乏对公众的数据可用性,一些领域实际上仍然没有被DNN触及。这为奖励未来的研究途径创造了重要的机会和肥沃的土壤。在本节中,这些领域,对其挑战的关键见解,以及未来可能的主要深度学习方法的方向进行了讨论。
人们对dnn有一种挥之不去的黑箱感知,这意味着深度学习模型可以根据它们的最终输出进行评估,而无需了解它们如何做出这些决定。

随着数据规模和复杂性的快速增长,无监督学习将成为未来的主要解决方案。当前的深度学习模型还需要适应不断出现的问题,如数据稀疏性、缺失数据和混乱的数据,以便通过观察而不是训练来获取近似的信息。此外,不完整、异构、高维、无标记和低样本的数据集是深度学习方法的开放场所。这是非常令人兴奋的,因为DNNs固有的不可知论黑盒特性赋予它们独特的能力来处理无监督数据。越来越多的先进的深度学习模型被用来处理有噪声和杂乱的数据。
深度学习模型如何在这些领域学习已经在讨论中。

深度学习方法面临的另一个里程碑式的挑战是在不丢失分类所需的关键信息的情况下进行降维。在癌症RNA测序分析等医学应用中,每个标签中的样本数量远远少于特征数量是很常见的。在目前的深度学习模型中,这导致了严重的过拟合问题,并抑制了对未经训练的案例的正确分类。很少有方法尝试通过经验推导可变可预测性,并在监督的方式下减少特性集,但这通常会导致分辨率和细节的丢失。在分析医学图像时也面临着类似的挑战,因为获取训练数据非常昂贵和耗时。

深度学习的一个日益增长的烦恼与计算效率问题有关,即在消耗最少资源的情况下实现最大吞吐量。目前的深度学习框架需要大量的计算资源才能达到最先进的性能。一种方法试图通过油藏计算来克服这一挑战。另一种方法是在离线训练中使用增量方法,利用中型和大型数据集。

SUMMARY

深度学习是机器学习中的一个新热点,它可以被定义为对多层数据表示进行非线性处理的级联。几十年来,机器学习研究人员一直试图从原始数据中发现模式和数据表示。这种方法被称为表示学习。与传统的机器学习和数据挖掘技术不同,深度学习能够从大量原始数据中生成非常高级的数据表示。因此,它为许多实际应用程序提供了解决方案。

本文综述了深度学习的最新算法和技术。它从1940年以来的人工神经网络的历史开始,并转移到最近的深度学习算法和不同应用程序的重大突破。然后,介绍了该领域的关键算法和框架,以及深度学习中的常用技术。首先简要介绍了传统的神经网络和几种监督深度学习算法,包括递归、递归和卷积神经网络,以及深度信任网络和玻尔兹曼机器。随后,讨论了更先进的深度学习方法,如无监督和在线学习。此外,还提供了几种优化技术。在这个领域流行的框架包括TensorFlow、Caffe和Theano。此外,为了应对大数据的挑战,简要讨论了深度学习中的分布式技术。然后,本文回顾了在各种应用中最成功的深度学习方法,包括自然语言处理、视觉数据处理、语音和音频处理以及社会网络分析。本文讨论了一些挑战,并提供了一些现有的解决方案。

然而,在深度学习的未来,仍然有几个问题需要解决。

  • 虽然深度学习可以记忆大量的数据和信息,但其对数据的薄弱推理和理解能力使其成为许多应用程序的黑盒解决方案。深度学习的可解释性有待于进一步研究。
  • 深度学习在同时建模多个复杂数据模态方面仍然存在困难。多模态深度学习是近年来深度学习研究的另一个热门方向。
  • 与人类大脑不同,深度学习需要大量的数据集(最好是有标记的数据)来训练机器和预测看不见的数据。当可用的数据集很小(例如,医疗保健数据)或需要实时处理数据时,这个问题变得更加令人生畏。近年来,为了缓解这一问题,人们研究了One-shot learning和zero-shot learning。
  • 现有的大多数深度学习实现都是监督算法,而机器学习正在逐渐转向无监督和半监督学习,以处理现实世界的数据,无需人工人工标记。
  • 尽管近年来深度学习取得了长足的进步,但许多应用仍未被深度学习所触及,或处于利用深度学习技术的早期阶段(如灾害信息管理、金融或医疗数据分析)。

总之,深度学习作为一种新兴的快速发展的方法,在各种应用中提供了无数的挑战,也提供了机遇和解决方案。更重要的是,它将机器学习转移到一个新的阶段,即“更智能的AI”。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值