神经网络与深度学习周总结(二)

1.性能优化

1.1动量法

病态曲率:

动量法:

1.2自适应梯度法

Adaptive Gradient:

  • 参数自适应变化:具有较大偏导的参数相应有一个较大的学习
    率,而具有小偏导的参数则对应一个较小的学习率
  • 具体来说,每个参数的学习率会缩放各参数反比于其历史梯度
    平方值总和的平方根

 

  • 特点:
  • 学习率是单调递减的,训练后期学习率过小会导致训练困难,
    甚至提前结束
  • 需要设置一个全局的初始学习率

RMSProp:

RMSProp 解决 AdaGrad 方法中学习率过度衰减的问题

Adam:

  • Adam 在 RMSProp 方法的基础上更进一步:
    ➢ 除了加入历史梯度平方的指数衰减平均(𝑟)外,
    ➢ 还保留了历史梯度的指数衰减平均(𝑠),相当于动量。
  • Adam 行为就像一个带有摩擦力的小球,在误差面上倾向于平
    坦的极小值。

1.3性能优化问题

待解决问题:权值𝐰取何值,指标函数𝐽(𝐰)最小?恰恰是最优化方法中的基本问题:函数最小化。
进一步,我们希望建立迭代形式,并且形式尽量简单,类似基本BP算法(最速梯度法):

 基本思想
全局极小点, 局部极小点
◼ 一阶条件:必要条件𝛻𝑓(x)= 0 (驻点)
◼ 二阶条件:充分条件 H半正定
◼ 鞍点:沿某方向是极大值点,沿另一方向是极小值。

1.4二阶算法

牛顿法:

常用技巧
训练数据与测试数据:
数据包括:
➢ 训练数据
➢ 验证数据
➢ 测试数据
通常三者比例为70%,15%,15%或60,20,20当数据很多时,训练和验证数据可适当减少。

训练数据与测试数据:𝐾折交叉验证
原始训练数据被分成 K 个不重叠的子集。 然后执行 K 次模型训练和验证,每次在 K−1 个子集上进行训练, 并在剩余的一个子集(在该轮中没有用于训练的子集)上进行验证。 最后,通过对 K 次实验的结果取平均来估计训练和验证误差。

欠拟合与过拟合:
➢ 欠拟合:误差一直比较大
➢ 过拟合:在训练数据集上误差小而在测试数据集上误差大

 

2.卷积神经网络

2.1深度学习平台介绍

深度学习一般是指通过训练多层网络结构对未知数据进行分类或回归,它的分类包括以下两部分,分别为有监督学习方法,即深度前馈网络、卷积神经网络、循环神经网络等 ;以及无监督学习方法,即深度信念网、深度玻尔兹曼机,深度自编码器等。

深度学习是具备一定思想的,它可以通过构建多层网络,对目标进行多层表示,以期通过多层的高层次特征来表示数据的抽象语义信息,获得更好的特征鲁棒性。

深度学习的应用十分广泛,可以应用于图像处理、语音识别、自然语言处理以及综合应用。图像领域主要包含:图像分类(物体识别)、物体检测、图像分割以及图像回归。语音识别主要包含语音识别、声纹识别以及语音合成。自然语言以及综合应用也包含方方面面。

综合上述分析,可以将深度学习平台归纳为如下所示的框图。

 而PYTRCH则是Python的一个深度学习库,它最初由Facebook人工智能研究小组开发,而优步的Pyro软件则用于概率编程。最初,PyTorch由Hugh Perkins开发,作为基于Torch框架的LusJIT的Python包装器。PyTorch在Python中重新设计和实现Torch,同时为后端代码共享相同的核心C库。
除了Facebook之外,Twitter、GMU和Salesforce等机构都采用了PyTorch。到目前,据统计已有80%的研究采用PyTorch,包括Google。

以下为PyTorch和TensorFlow2的对比模型。
 

2.2卷积神经网咯基础

卷积神经网络取得的第一个进步是AlexNet网络,它是在2012年提出的。这里有一些关键的改进:它提出了ReLu,也就是有助于防止消失的梯度问题;它也引入了dropout的概念,使得每层中神经元随机地打开和关闭,防止过拟合。如果你的数据过于相似,它不能够对相似但不同的图像进行分类,因为它过拟合了你的训练数据。

在这之后,就是VGG Net。其中最大的变化是,添加了更多的层。接下来是ResNet,这是在resin之后的创意。并且改进梯度传播,从而使得反向传播更加容易。进一步解决了梯度消失的问题这之后是DenseNet。DenseNet 提出将网络中每一层的所有块与其他层连接起来。这是一种更复杂的连接策略。网络被设计的越来越深。还有一些计算技巧正在被添加到这些卷积网络上,比如ReLu或dropout或批量标准化(Batch Normalization),从而提升了性能。另外,我们还在网络层之间使用越来越多的连接,但是Hinton说卷积神经网络存在问题。

综合上述分析,卷积神经网络的进化史如下所示。

卷积神经网络的基本概念可以概括为,全连接网络,链接权过多,难算难收敛,同时可能进入局部极小值,也容易产生过拟合问题。因此进行填充操。也就是在矩阵的边界上填充一些值,以增加矩阵的大小,通常用0或者复制边界像素来进行填充。如下图所示。

多通道卷积则具备以下图示所示的性质。 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值