余弦衰减学习率与linear warmup结合版代码

氵文大师

已于 2023-04-06 22:57:30 修改

阅读量601

点赞数 1

文章标签： tensorflow paddle paddlepaddle

于 2023-04-06 22:52:02 首次发布

本文链接：https://blog.csdn.net/HaoZiHuang/article/details/130000622

版权

这段代码定义了一个结合线性暖身和余弦衰减的学习率调度函数。在暖身阶段，学习率从warmup_learning_rate线性增加到init_learning_rate，随后进入余弦衰减阶段，学习率按照余弦函数规律逐渐减小，最后收敛到一个低点。这种策略有助于模型训练的稳定性和性能优化。

摘要由CSDN通过智能技术生成

以下代码摘自tensorflow官方tpu仓库

def cosine_learning_rate_with_linear_warmup(global_step,
                                            init_learning_rate,
                                            warmup_learning_rate,
                                            warmup_steps,
                                            total_steps):
    """Creates the cosine learning rate tensor with linear warmup."""
    global_step = tf.cast(global_step, dtype=tf.float32)
    linear_warmup = (warmup_learning_rate + global_step / warmup_steps *
                   (init_learning_rate - warmup_learning_rate))
    cosine_learning_rate = (
        init_learning_rate * (tf.cos(
            np.pi * (global_step - warmup_steps) / (total_steps - warmup_steps))
                              + 1.0) / 2.0)
    learning_rate = tf.where(global_step < warmup_steps,
                             linear_warmup, cosine_learning_rate)
    return learning_rate

五个参数的含义，直接看图吧，代码瞅一眼也简单
在这里插入图片描述
在 warmup阶段，学习率从 warmup_learning_rate 变为 init_learning_rate，该阶段中学习率是线性递增或递减的

在余弦衰减阶段，学习率是这样衰减的：

$\frac{ cos \left ( \frac{gl-w} {t-w} \pi \right ) + 1 }{ 2 } * init\_learning\_rate$

$cos$ 中的变量：

$g l$ 是 $global\_step$
$w$ 是 $warmup\_steps$
$t$ 是 $total\_step$

衰减曲线如下图蓝色框中的部分所示：
在这里插入图片描述
下降程度先逐渐加快，之后逐渐变慢，收敛到一个很小的值

氵文大师

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
余弦衰减学习率与linear warmup结合版代码

下降程度先逐渐加快，之后逐渐变慢，收敛到一个很小的值。以下代码摘自tensorflow官方tpu仓库。五个参数的含义，直接看图吧，代码瞅一眼也简单。，该阶段中学习率是线性递增或递减的。在 warmup阶段，学习率从。
复制链接

扫一扫