李飞飞计算机视觉-自用笔记(第三周)

7 训练神经网络(下)

7.1 更好地优化

梯度下降法存在的问题:
1.如果损失值在某一个方向下降很快而在其他方向下降很慢,梯度下降过程会成为一个“之”字形,导致其在水平方向前进速度缓慢,这种现象在高维空间普遍出现
2.高维问题中,更容易陷入局部最优解,无法跳出;鞍点(saddle point):某些方向损失增加,某些方向损失减小,这个问题也在高维度时尤为突出
3.随机性会引入噪声

解决方法:SGD+Momentum(带动量的SGD)
思想:保持一个不随时间变化的速度,将梯度估计添加到这个速度上,在后在这个速度的方向上前进,而不是在梯度方向上前进
在这里插入图片描述
在这里插入图片描述
AdaGrad:优化过程中,保持训练过程中每一步的梯度平方和持续估计;但如果时间过长的话,更新步长会变得越来越小。
变体:RMSProp,尝试让所有维度做出相同改进
在这里插入图片描述
改进:不是简单地累加梯度平方,而是让平方梯度按照一定比率下降

Adam:解决未知新问题的默认算法
在这里插入图片描述
参数选择:
在这里插入图片描述
关于学习率的挑选:
在这里插入图片描述
根据loss变化及时调整学习率;右侧图运用了学习率衰减达到优化损失函数的目的
函数优化完毕后,如何提高模型在测试集上的表现呢?
模型集成:
1.训练多个不同的模型
2.平均多个模型的预测结果
技巧:
在这里插入图片描述

7.2 正则化

正则化:提高单一模型效果的一种方法
Dropout:每次在网络中正向传递时,在每一层(一般是在全连接层;或者卷积层)随机将部分神经元(激活函数)置零
在这里插入图片描述
注:可以将其看为训练一个大型的共享参数的集成模型
此方法存在的缺点:输出的结果具有随机性;可以用局部逼近的方法解决这一问题,即对于预测函数,用dropout的概率乘以输出层的输出
DropConnect:随即将权重矩阵某些值置零

批量归一化;

数据增强:
在不改变标签的前提下对数据进行转换,在训练时将这些随机转换应用于输入数据
水平翻转;随机裁剪;色彩抖动

部分最大池化(不常用):
在这里插入图片描述
消除随机性:
1.适用固定的池化区域
2.选取很多样本后取平均

随机深度:
在这里插入图片描述

7.3 迁移学习

在这里插入图片描述
拥有的数据集不够大时,需要下载一些相关的预训练模型
Caffe:https://github.com/BVLC/caffe/wiki/Model-Zoo
TensorFlow:https://github.com/tensorflow/models
PyTorch:https://github.com/pytorch/vision

8 深度学习软件

8.1 CPU vs GPU

在这里插入图片描述

8.2 深度学习框架

优点:
1.可以轻松构建和使用一个庞大地计算图
2.便于计算梯度
3.GPU上运行高效
这里快进了TensorFlow,重点学习对于PyTorch的介绍
torch三大抽象:
张量tensor
变量variable:在计算图中的节点;可做自动梯度等计算
nn(自定义模块);optim;dataloader(建立分批处理;打包数据)等详细可见PyTorch自用学习笔记系列
预训练模型:
在这里插入图片描述
visdom:可视化损失统计
静态图:只建立一次,然后不断地复用
动态图的应用:recurrent networks(循环网络);recursive networks;modularnetworks(递归网络)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值