自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(3)
  • 收藏
  • 关注

原创 3.7批量归一化笔记(Datawhale X 李宏毅苹果书AI夏令营)

因此,一个量的改变会引起所有量的改变,可能会产生上百万笔数据,GPU的显存无法把整个数据集的数据都加载进去,因此,在实际实现的时候,我们只考虑一个批量里面的样本,只对一个批量里面的数据做归一化,所以技巧称为批量归一化。反之,假设x2的值很大,那么L的变化就会很大,就会导致在w这个方向上做变化,我们把w改变一点点误差,表面就会有很大的变化。此时,所有维度的平均值都是0,方差是1,所有的数值都在0上下变动,可能就可以制造一个比较好的误差表面,在做梯度下降的时候损失收敛更快一点,训练更顺利。

2024-09-03 23:19:18 688

原创 3.3&4&5自适应学习率笔记(Datawhale X 李宏毅苹果书AI夏令营)

此时又提出一个问题:加上自适应学习率,以后进行训练,会出现快走到终点的时候突然“爆炸”的情况,这是因为纵轴方向的梯度很小,积累了σ到一定程度以后,步伐就变得很大,σ也会慢慢变大,更新的步伐大小又会慢慢变小,从而回到原来的路线。将原来的学习率η变成η/σ,这个σ上标为i下标为t,这代表参数σ与i相关,与迭代相关,学习率就变成了参数相关。在梯度下降里面,所有的参数都是设同样的学习率,这显然是不够的,应当要为每一个参数定制化学习率,即引入自适应学习率的方法,给每一个参数不同的学习率。

2024-08-31 23:21:54 202

原创 3.1局部极小值与鞍点笔记(Datawhale X 李宏毅苹果书AI夏令营)

但实际上,我们几乎不会真的把海森矩阵算出来,因为海森矩阵需要算二次微分,计算这个矩阵的运算量非常大,还要把它的特征值跟特征向量找出来,所以几乎没有人用这个方法来逃离鞍点。不仅可能是局部极小/大值,也有可能是鞍点。为了符号简洁,我们用向量 v 来表示 θ - θ′, (θ - θ′)T H (θ - θ′) 可改写为 vTHv,因此,只需要判断海森矩阵是正定矩阵,还是负定矩阵,还是有正有负即可。这种情况出现的原因是,当参数对损失微分为零的时候,梯度下降就不能再更新参数了,训练就停下来了,损失不再下降了。

2024-08-27 23:14:33 439

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除