gaint panda-CSDN博客

原创 3.7批量归一化笔记(Datawhale X 李宏毅苹果书AI夏令营)

因此，一个量的改变会引起所有量的改变，可能会产生上百万笔数据，GPU的显存无法把整个数据集的数据都加载进去，因此，在实际实现的时候，我们只考虑一个批量里面的样本，只对一个批量里面的数据做归一化，所以技巧称为批量归一化。反之，假设x2的值很大，那么L的变化就会很大，就会导致在w这个方向上做变化，我们把w改变一点点误差，表面就会有很大的变化。此时，所有维度的平均值都是0，方差是1，所有的数值都在0上下变动，可能就可以制造一个比较好的误差表面，在做梯度下降的时候损失收敛更快一点，训练更顺利。

2024-09-03 23:19:18 688

原创 3.3&4&5自适应学习率笔记(Datawhale X 李宏毅苹果书AI夏令营)

此时又提出一个问题：加上自适应学习率，以后进行训练，会出现快走到终点的时候突然“爆炸”的情况，这是因为纵轴方向的梯度很小，积累了σ到一定程度以后，步伐就变得很大，σ也会慢慢变大，更新的步伐大小又会慢慢变小，从而回到原来的路线。将原来的学习率η变成η/σ，这个σ上标为i下标为t，这代表参数σ与i相关，与迭代相关，学习率就变成了参数相关。在梯度下降里面，所有的参数都是设同样的学习率，这显然是不够的，应当要为每一个参数定制化学习率，即引入自适应学习率的方法，给每一个参数不同的学习率。

2024-08-31 23:21:54 202

原创 3.1局部极小值与鞍点笔记(Datawhale X 李宏毅苹果书AI夏令营)

但实际上，我们几乎不会真的把海森矩阵算出来，因为海森矩阵需要算二次微分，计算这个矩阵的运算量非常大，还要把它的特征值跟特征向量找出来，所以几乎没有人用这个方法来逃离鞍点。不仅可能是局部极小/大值，也有可能是鞍点。为了符号简洁，我们用向量 v 来表示 θ - θ′， (θ - θ′)T H (θ - θ′) 可改写为 vTHv，因此，只需要判断海森矩阵是正定矩阵，还是负定矩阵，还是有正有负即可。这种情况出现的原因是，当参数对损失微分为零的时候，梯度下降就不能再更新参数了，训练就停下来了，损失不再下降了。

2024-08-27 23:14:33 439

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人