深度学习主流框架和编程实战——机器学习&深度学习and深度学习&统计学

第一章 绪论

1.1机器学习与深度学习

定义
”机器学习“就是通过算法使得机器能从大量历史数据中学习规律,从而对新样本斑鸻只能识别或对未来做出预测。
”深度学习”是机器学习的一个分支和新的研究领域,本质在于利用海量的训练数据(可为无标签数据),通过构建多隐层的模型,去学习更加有用的特征数据,从而提高数据分类效果,提升预测结果的准确性。

关系
“机器学习”有两次里程碑式的变革:①浅层学习:网络层数较少(多为一层)的人工神经网络,在此阶段提出了反向传播算法——使得人工神经网络模型从大量的训练样本中学习出统计规律,从而对未知事件做出预测;②深度学习:强调模型结构的深度,同时明确突出了特征学习的重要性,即通过逐层的特征变换,将样本在原空间的特征变换到一个新的空间特征,从而更加容易分类和预测。

对比
(1)数据依赖:深度学习的性能随着数据量的增加而增加,数据量少,深度学习算法性能不好。
(2)硬件支持:深度学习依赖高端机器,需要完成大量矩阵乘法操作,最好使用GPU加速;传统机器学习在低端机就可以进行。
(3)特征工程:传统机器学习的特征都是由专家根据经验知识确定的,故传统机器学习的性能依赖于识别和抽取这些特征的准确度。
(4)问题解决方案:传统机器学习采用化整为零,分别解决,在合并结果;深度学习主张端到端的模型,即输入训练数据,直接输出结果,让网络自己学习如何提取关键特征。

下图即为传统深度学习和机器学习对比流程图:

(5)执行时间:深度学习需要进行很长时间的训练,如ResNet大概需要两周时间完成训练;而机器学习只需要几秒到几小时完成训练。测试所需时间就相反,深度学习算法只需要很少时间完成测试。
(6)可解释性:使用深度学习算法给文章评分,性能不错,非常接近人类评分水平,但是它不能解释为什么这样评分。在运行过程中,可以发现深度神经网络的哪些节点被激活,但是不能看出这些神经元是对什么进行建模解耦以及每层都在干什么,所以无法解释结果。而机器学习算法如决策树按照明确规则明确解释每一步做出选择的原因,因此像决策树和线性/逻辑回归这类算法解释性良好,在工业界应用广泛。

1.2统计学与深度学习

关系
统计学通常可以分为两大类:①用于组织、累加和描述数据中信息的描述统计学;②使用抽样数据来推断总体的推断统计学

深度学习是通过大量的样本数据学习总体规则的方法,它的特点在于先设计能够进行自主学习的神经网络,然后将大量的数据输入网络中进行训练,通过训练神经网络能够从数据集中学到数据的内在结构和规律,从而对数据做出新的预测。

从统计学角度看,深度学习是统计学对实践技术的延伸。深度学习用来训练的数据集即为样本,学习的过程即为对总体信息进行估计。

典型的基于统计的深度学习技术

(1)受限玻尔兹曼机(restricted Boltzmann machine, RBM)是一种可用随机神经网络来解释的概率图模型。随机神经网络的核心在于能够在网络中加入概率因素,而其中的随机是指网络中的神经元是随机神经元,其输出只有两种状态(0或1),而状态的取值根据统计的方法确定。

RBM属于深度学习中常用的模型或方法,其结构如图所示:
其中,下层为输入层,包括n个输入单元Vn,用来表示输入数据;上层为隐藏层,包含m个隐藏层单元hm,RBM具有层内无连接、层间全连接的特征,这一特点可以保证RBM各层之间的条件独立性。

(2)生成对抗式网络(GAN, Generative Adversarial Networks)是一种新型网络。基本思想来自博弈论中的二人零和博弈,网络模型由一个生成网络和一个判别网络构成,生成网络用来学习样本的真实分布并用服从某一分布(高斯分布或均匀分布)的噪声生成新的数据分布,判别网路用来判断输入是真实样本还是生成网络生成的样本,通过生成网络与判别网络的对抗进行网络的训练。

GAN的优化过程是极大极小博弈问题,具体是指判断网络的极大化(即判别网络要尽可能区分真是样本和生成网络的生成样本)和生成网络的极小化,即生成网络的生成样本要尽可能的欺骗判别网络,使其认为是真实的样本,优化目标为达到纳什均衡,使生成网络估测到数据样本的分布。

GAN的计算流程与结构如图所示:

1.3几种深度学习算法

(1)卷积神经网络(Convolutional Neural Networks, CNN)是一类适用于处理图像数据的多层神经网络。CNN从生物学上的视觉皮层得到启发:视觉皮层存在微小区域的细胞对于特定区域的视野十分敏感,这就对应着CNN中的局部感知区域。在CNN中,图像中的局部感知区域被当作层次结构中的底层输入数据,信息通过前向传播经过网络中的各个层,每一层都由过滤器构成,以便能够获得观测数据的一些显著特征,局部感知区域能够获得一些基础的特征,还能提供一定程度对位移、拉伸和旋转的相对不变性。CNN通过结合局部感知区域、共享权重、空间或者时间上的降采样来充分利用数据本身包含的局部性等特征,优化网络结构;通过挖掘数据空间上的相关性,来减少网络中可训练参数的数量,以达到改进反向传播算法效率。

(2)长短期记忆(Long Short-Term Memory, LSTM)网络主要适用于处理序列数据。LSTM网络是一种特殊的RNN(循环神经网络),但网络本质与RNN是一样的。在传统的神经网络模型中,网络的传输是从输入层到隐藏层再到输出层,层与层之间是全连接的,每层之间的节点是无连接的。这其中存在一定的问题,即传统的神经网络对于处理时序问题无能为力。LSTM网络可以解决长时期依赖的问题,主要是因为LSTM网络有一个处理器,其中放置了“三扇门”,分别称为输入门、遗忘门和输出门。一个信息进入LSTM网络当中,可以根据规则来判断是否有用,只有符合算法认证的信息才会留下,不符合的信息则通过遗忘门被“遗忘”。所以可以很好地处理序列数据。

(3)受限玻耳兹曼机(RBM)是一种用随机神经网络来解释的概率图模型。

----------处理语音:当使用RBM建立语音信号模型时,该模型使用对比散度(CD)算法进行有效训练,学习与识别任务关联性更高的特征来更好地得到信号的值。

---------文本类数据:在文档分类问题中,直接将不规范的文档内容作为输入会产生过高的输入数据维数,而无法对其进行处理,因此有必要对文档进行预处理,选择词组出现的频率作为特征项以提取能够表示其本质特征的数据,使用RBM可从原始的高维输入特征中提取可高度区分的低维特征,然后将其作为支持向量机的输入进行回归分析,从而实现对文档的分类。

(4)生成对抗式网络(GAN)

---------处理图像数据;
---------估计样本数据的分布;
---------解决图片生成问题。

GAN包含一个生成模型(Generative Model)G和一个判别模型(Discriminative Model)D,生成模型G捕捉样本数据的分布,即生成图片;判别模型D是一个二分类器,判别图片是真实数据还是生成的。在训练过程中,首先固定一方,再更新另一个模型的参数,以此交替迭代,直至生成模型与判别模型无法提高自己,即判别模型无法判断一张图片是生成的还是真实的。

优化过程—— 这是一个二元极小极大博弈问题,在G和D的任意函数空间中,存在一个唯一的解,G恢复训练数据分布,D在任何地方都等于0.5。

该网络可以为模拟型强化学习做好理论准备,在缺乏数据的情况下,可以通过生成模型来补足。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值