千740-CSDN博客

原创批量归一化卷积神经网络Datawhale X 李宏毅苹果书 AI夏令营

在误差表面比较崎岖的时候，我们可以通过批量归一化将误差表面变平整，如果我们可以给不同的维度，同样的数值范围的话，那我们可能就可以制造比较好的误差表面，让训练变得比较容易一点其实有很多不同的方法，这些不同的方法往往就合起来统称为特征归一化。我们就是把这边的某一个数值 x，减掉这一个维度算出来的平均值，再除掉这个维度，算出来的标准差，得到新的数值 x˜。采样操作，逐步减少特征图的空间大小，从而减少网络参数，控制过拟合，并保留重要特征。特征归一化，要放在激活函数之前，之后都是可以的，在实现上，没有太大的差别。

2024-09-03 21:28:58 634

原创自适学习率，分类 Datawhale X 李宏毅苹果书 AI夏令营

在优化的过程中，可能会因为积累了过多的梯度，导致最后结果爆掉的现象，针对这种现象，我们可以使用学习率调度，之前的学习率调整方法中 η 是一个固定的值，而在学习率调度中 η 跟时间有关，学习率调度中最常见的策略是学习率衰减（learning rate decay），也称为学习率退火（learning rateannealing）。通过以上这种情况我们就可以发现，在梯度下降的过程中，我们不能把所有的参数设相同的学习率，应该为每个参数指定专用的学习率，即自适学习率。同一个参数需要的学习率，也会随着时间而改变。

2024-08-31 20:44:55 345

原创局部极小值与鞍点，批量和动量 Datawhale X 李宏毅苹果书 AI夏令营

这意味着在 θ′ 附近，有时候L(θ) > L(θ′)，有时候 L(θ) < L(θ′). 因此在 θ′ 附近，L(θ′) 既不是局部极大值，也不是局部极小值，而是鞍点。（1）如果对所有 v，v^T*Hv > 0. 这意味着对任意 θ，L(θ) > L(θ′). 只要 θ 在 θ′ 附近，L(θ) 都大于 L(θ′). 这代表 L(θ′) 是附近的一个最低点，所以它是局部极小值。L(θ) ≈ L（θ′）+（θ − θ′）^T*g +1/2(θ − θ′)^T *H(θ − θ′).（H为海森矩阵）

2024-08-26 21:48:43 435

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 批量归一化 卷积神经网络Datawhale X 李宏毅苹果书 AI夏令营

原创 自适学习率 ，分类 Datawhale X 李宏毅苹果书 AI夏令营

原创 局部极小值与鞍点，批量和动量 Datawhale X 李宏毅苹果书 AI夏令营

空空如也

空空如也

原创批量归一化卷积神经网络Datawhale X 李宏毅苹果书 AI夏令营

原创自适学习率，分类 Datawhale X 李宏毅苹果书 AI夏令营

原创局部极小值与鞍点，批量和动量 Datawhale X 李宏毅苹果书 AI夏令营