梯度裁剪:
实现:确定一个梯度裁剪阈值
c
c
c,对于计算出的每一个梯度,计算其L2范数(即梯度向量的长度)
∣
∣
g
∣
∣
||g||
∣∣g∣∣,如果
∣
∣
g
∣
∣
>
c
||g|| > c
∣∣g∣∣>c,则将梯度裁剪(缩放)为
g
i
×
c
∣
∣
g
∣
∣
g_i × \frac{c}{||g||}
gi×∣∣g∣∣c,使用裁剪后的 梯度来更新模型参数:
作用:1. 梯度裁剪的主要目的是防止梯度爆炸问题,即梯度的值变得非常大,导致模型无法正常学习。2. 在差分隐私中,梯度裁剪还有助于限制单个数据点对模型更新的影响,从而提高隐私保护
什么是梯度裁剪
于 2024-03-02 12:08:47 首次发布