哈工大神经网络与深度学习知识总结(二)

目录

4.性能优化

4.1动量法

4.2自适应梯度算法

 4.3性能优化问题描述

4.4二阶算法

 4.5常用技巧

5.卷积神经网络基础

5.1 深度学习平台介绍

5.2卷积神经网络基础


4.1动量法

SGD问题 病态曲率,由于两边过于陡峭,导致搜索点一直在山沟两边碰撞,前进速度慢。
为了解决以上问题,我们引入了动量法。
更新公式:

 

4.2自适应梯度算法

AdaGrad(Adaptive Gradient自适应梯度

 ROMSProp(Root Mean Square Prop)

 Adam

 4.3性能优化问题描述

权值 𝐰 取何值,指标函数 𝐽(𝐰) 最小? 恰恰是最优化方法中的基本问题:函数最小化。 进一步,我们希望建立迭代形式,并且形式尽量简单。
考虑对函数进行展开

对于全局极小值点,局部极小值点,有如下两条特征:
1.一阶条件:必要条件
𝛻𝑓( 𝐱 ∗)  = 0 驻点
2.二阶条件:充分条件H半正定
鞍点指的式沿某方向是极大值点,沿另一方向是极小值点的点。

 

4.4二阶算法

牛顿法:对于二次型,有

 最终得到

 4.5常用技巧

训练数据与测试数据:

训练数据,验证数据,测试数据,通常三者比例为70%, 15%, 15%或60, 20, 20当数据很多时,训练和验证数据可适当减少。

𝐾折交叉验证:
原始训练数据被分成 K 个不重叠的子集。 然后执行 K 次模型训练和验证,每次在 K-1 个子集上进行训练, 并在剩余的一个子集(在该轮中没有用于训练的子集)上进行验证。 最后,通过对 K 次实验的结果取平均来估计训练和验证误差。

权重衰减:
欠拟合:误差一直比较大
过拟合:在训练数据集上误差小而在测试数据集上误差大
为防止过拟合和权值震荡,加入新的指标函数项:

第二项约束了权值不能过大。在梯度下降时,导数容易计算:


Dropout(暂退):
在整个训练过程的每一次迭代中,标准暂退法包括在计算下一层之前将当前层中的一些节点置零。

 

模型初始化:
简单的考虑,把所有权值在[-1,1]区间内按均值或高斯分布进行初始化。

Xavier初始化:为了使得网络中信息更好的流动,每一层输出的方差应该尽量相等。因此需要实现下面的均匀分布:
 

 

5.卷积神经网络基础

5.1 深度学习平台介绍

 

PyTorch是一个Python的深度学习库。它最初由Facebook人工智能研 究小组开发,而优步的Pyro软件则用于概率编程。 最初,PyTorch由Hugh Perkins开发,作为基于Torch框架的LusJIT的Python包装器。PyTorch在Python中重新设计和实现Torch,同时为后端代码共享相同的核心C库。
除了Facebook之外,Twitter、GMU和Salesforce等机构都采用了 PyTorch。 O到目前,据统计已有80%的研究采用PyTorch,包括Google。

PyTorch基本使用

  1. 使用tensor表示数据
  2. 使用Dataset 、DataLoader读取样本数据和标签
  3. 使用变量(Variable)存储神经网络权值等参数
  4. 使用计算图(computational graph)来表示计算任务
  5. 在代码运行过程中同时执行计算图

5.2卷积神经网络基础

基本概念:

全连接网络:链接权过多,难算难收敛,同时可能进入局部极小值,也容易产生过拟合问题
局部连接网络:顾名思义,只有一部分权值连接部分输入和权值卷积。
填充:也就是在矩阵的边界上填充一些值,以增加矩阵的大小,通常用0或者复制边界像素来进行填充。
池化 :使用局部统计特征,如均值或最大值解 决特征过多问题。
卷积神经网络结构构成:由多个卷积层和下采样层构成,后面可连接全连接网络
        卷积层:k个滤波器
        下采样层:采用mean或max
        后面:连着全连接网络
前向传播定义:

如果第 𝑙层是卷积+池 化层,则:

 

 

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值