李飞飞计算机视觉-自用笔记（第三周）

最新推荐文章于 2020-09-04 08:31:05 发布

代号06009

最新推荐文章于 2020-09-04 08:31:05 发布

阅读量174

点赞数

本文链接：https://blog.csdn.net/qq_41882866/article/details/107490490

版权

李飞飞计算机视觉-自用笔记（三）

7 训练神经网络（下）
8 深度学习软件
- 8.1 CPU vs GPU
- 8.2 深度学习框架

7 训练神经网络（下）

7.1 更好地优化

梯度下降法存在的问题：
1.如果损失值在某一个方向下降很快而在其他方向下降很慢，梯度下降过程会成为一个“之”字形，导致其在水平方向前进速度缓慢，这种现象在高维空间普遍出现
2.高维问题中，更容易陷入局部最优解，无法跳出；鞍点（saddle point）：某些方向损失增加，某些方向损失减小，这个问题也在高维度时尤为突出
3.随机性会引入噪声

解决方法：SGD+Momentum（带动量的SGD）
思想：保持一个不随时间变化的速度，将梯度估计添加到这个速度上，在后在这个速度的方向上前进，而不是在梯度方向上前进
在这里插入图片描述

AdaGrad：优化过程中，保持训练过程中每一步的梯度平方和持续估计；但如果时间过长的话，更新步长会变得越来越小。
变体：RMSProp，尝试让所有维度做出相同改进

改进：不是简单地累加梯度平方，而是让平方梯度按照一定比率下降

Adam：解决未知新问题的默认算法
在这里插入图片描述
参数选择：

关于学习率的挑选：

根据loss变化及时调整学习率；右侧图运用了学习率衰减达到优化损失函数的目的
函数优化完毕后，如何提高模型在测试集上的表现呢？
模型集成：
1.训练多个不同的模型
2.平均多个模型的预测结果
技巧：
在这里插入图片描述

7.2 正则化

正则化：提高单一模型效果的一种方法
Dropout：每次在网络中正向传递时，在每一层（一般是在全连接层；或者卷积层）随机将部分神经元（激活函数）置零
在这里插入图片描述
注：可以将其看为训练一个大型的共享参数的集成模型
此方法存在的缺点：输出的结果具有随机性；可以用局部逼近的方法解决这一问题，即对于预测函数，用dropout的概率乘以输出层的输出
DropConnect：随即将权重矩阵某些值置零

批量归一化；

数据增强：
在不改变标签的前提下对数据进行转换，在训练时将这些随机转换应用于输入数据
水平翻转；随机裁剪；色彩抖动

部分最大池化（不常用）：
在这里插入图片描述
消除随机性：
1.适用固定的池化区域
2.选取很多样本后取平均

随机深度：
在这里插入图片描述

7.3 迁移学习

在这里插入图片描述
拥有的数据集不够大时，需要下载一些相关的预训练模型
Caffe：https://github.com/BVLC/caffe/wiki/Model-Zoo
TensorFlow:https://github.com/tensorflow/models
PyTorch:https://github.com/pytorch/vision

8 深度学习软件

8.1 CPU vs GPU

在这里插入图片描述

8.2 深度学习框架

优点：
1.可以轻松构建和使用一个庞大地计算图
2.便于计算梯度
3.GPU上运行高效
这里快进了TensorFlow，重点学习对于PyTorch的介绍
torch三大抽象：
张量tensor
变量variable：在计算图中的节点；可做自动梯度等计算
nn（自定义模块）;optim;dataloader（建立分批处理；打包数据）等详细可见PyTorch自用学习笔记系列
预训练模型：
在这里插入图片描述
visdom：可视化损失统计
静态图：只建立一次，然后不断地复用
动态图的应用：recurrent networks（循环网络）;recursive networks;modularnetworks（递归网络）

代号06009

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
李飞飞计算机视觉-自用笔记（第三周）

7 训练神经网络（下）7.1 更好地优化梯度下降法存在的问题：1.如果损失值在某一个方向下降很快而在其他方向下降很慢，梯度下降过程会成为一个“之”字形，导致其在水平方向前进速度缓慢，这种现象在高维空间普遍出现2.高维问题中，更容易陷入局部最优解，无法跳出；鞍点（saddle point）：某些方向损失增加，某些方向损失减小，这个问题也在高维度时尤为突出3.随机性会引入噪声解决方法：SGD+Momentum（带动量的SGD）思想：保持一个不随时间变化的速度，将梯度估计添加到这个速度上，在后在这个
复制链接

扫一扫