CS231n Neural Nets notes 3 神经网络笔记3

最新推荐文章于 2024-07-20 17:59:19 发布

ferb2015

最新推荐文章于 2024-07-20 17:59:19 发布

阅读量122

点赞数

分类专栏： CS231n 文章标签： cs231n 神经网络 Neural Nets

本文链接：https://blog.csdn.net/eqiang8848/article/details/82255381

版权

CS231n 专栏收录该内容

10 篇文章 0 订阅

订阅专栏

https://zhuanlan.zhihu.com/p/21741716?refer=intelligentunit

梯度检查

使用少量数据点。解决上面的不可导点问题的一个办法是使用更少的数据点。因为含有不可导点的损失函数(例如：因为使用了ReLU或者边缘损失等函数)的数据点越少，不可导点就越少，所以在计算有限差值近似时越过不可导点的几率就越小。还有，如果你的梯度检查对2-3个数据点都有效，那么基本上对整个批量数据进行梯度检查也是没问题的。所以使用很少量的数据点，能让梯度检查更迅速高效。

在操作的特性模式中梯度检查。因此为了安全起见，最好让网络学习（“预热”）一小段时间，等到损失函数开始下降的之后再进行梯度检查。在第一次迭代就进行梯度检查的危险就在于，此时可能正处在不正常的边界情况，从而掩盖了梯度没有正确实现的事实。

不要让正则化吞没数据。通常损失函数是数据损失和正则化损失的和（例如L2对权重的惩罚）。需要注意的危险是正则化损失可能吞没掉数据损失，在这种情况下梯度主要来源于正则化部分（正则化部分的梯度表达式通常简单很多）。这样就会掩盖掉数据损失梯度的不正确实现。因此，推荐先关掉正则化对数据损失做单独检查，然后对正则化做单独检查。对于正则化的单独检查可以是修改代码，去掉其中数据损失的部分，也可以提高正则化强度，确认其效果在梯度检查中是无法忽略的，这样不正确的实现就会被观察到了。

检查整个学习过程

在下面的图表中，x轴通常都是表示周期（epochs）单位，该单位衡量了在训练中每个样本数据都被观察过次数的期望（一个周期意味着每个样本数据都被观察过了一次）。相较于迭代次数（iterations），一般更倾向跟踪周期，这是因为迭代次数与数据的批尺寸（batchsize）有关，而批尺寸的设置又可以是任意的。

周期：一个epoch是指把所有训练数据完整的过一遍（里面有很多for，全跑完算一次）数据要来回打乱顺序重新来过。
一次epoch=所有训练数据forward+backward后更新参数的过程。
一次iteration=[batch size]个训练数据forward+backward后更新参数过程。
另：一般是iteration译成“迭代”

https://zhuanlan.zhihu.com/p/21798784?refer=intelligentunit

随机梯度下降及各种更新方法

动量（Momentum）更新
$v_{t+1} = \rho{v_t} -\alpha\nabla{f(x_t)}$
$x_{t+1} += v_{t+1}$

# 动量更新
v = mu * v - learning_rate * dx # 与速度融合
x += v # 与位置融合

Nesterov动量

v_prev = v # 存储备份
v = mu * v - learning_rate * dx # 速度更新保持不变
x += -mu * v_prev + (1 + mu) * v # 位置更新变了形式

学习率退火

调整学习率，可以理解为调整x（或意味着权重w）以什么样子变化。

超参数范围。在对数尺度上进行超参数搜索。（用乘除）。例如，一个典型的学习率应该看起来是这样： $learning_rate = 10 ** uniform(-6, 1)$ 。也就是说，我们从标准分布中随机生成了一个数字，然后让它成为10的阶数。对于正则化强度，可以采用同样的策略。直观地说，这是因为学习率和正则化强度都对于训练的动态进程有乘的效果。例如：当学习率是0.001的时候，如果对其固定地增加0.01，那么对于学习进程会有很大影响。然而当学习率是10的时候，影响就微乎其微了。这就是因为学习率乘以了计算出的梯度。因此，比起加上或者减少某些值，思考学习率的范围是乘以或者除以某些值更加自然。但是有一些参数（比如随机失活）还是在原始尺度上进行搜索（例如： $dropout=uniform(0,1)$ ）。

ferb2015

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
CS231n Neural Nets notes 3 神经网络笔记3

https://zhuanlan.zhihu.com/p/21741716?refer=intelligentunit梯度检查使用少量数据点。解决上面的不可导点问题的一个办法是使用更少的数据点。因为含有不可导点的损失函数(例如：因为使用了ReLU或者边缘损失等函数)的数据点越少，不可导点就越少，所以在计算有限差值近似时越过不可导点的几率就越小。还有，如果你的梯度检查对2-3个数...
复制链接

扫一扫