TensorFlow使用不同的学习率

最新推荐文章于 2023-01-08 11:35:38 发布

Irlyue

最新推荐文章于 2023-01-08 11:35:38 发布

阅读量2.4k

点赞数

分类专栏： TensorFlow Python 文章标签： TensorFlow Python

本文链接：https://blog.csdn.net/Irlyue/article/details/80230186

版权

本文介绍了如何在TensorFlow中为不同网络层设置不同学习率，特别是在迁移学习中调整预训练模型和新添加层的学习率。通过自定义优化器包装器，可以实现特定层的学习率控制。需要注意的是，使用多个学习率时，要确保每个优化器仅处理一部分变量，并且所有需要更新的变量需明确指定其作用域。

摘要由CSDN通过智能技术生成

使用场景

有时候我们需要为不同的网络层设置不同的学习率。比如在fine-tune的时候，一个best practice就是在ImageNet上预训练的骨干部分使用较小的学习率，而新添加的部分使用较大的学习率。如图所示的计算图谱，如果我们希望骨干部分的残差网络学习率小一点，而新增加的aspp模块学习率稍大一点。
DeepLab
虽然TensorFlow对使用不同的学习率没有提供比较便捷的支持，但使用TF提供的低层API简单封装一下优化器便可达到我们的目的。
先写一个函数用于获取具体的优化器：

def get_solver(kind, lr):
    kind = kind.lower()
    if kind == 'adam':
        solver = tf.train.AdamOptimizer(lr)
    elif kind == 'sgd':
        solver = tf.train.GradientDescentOptimizer(lr)
    elif kind == 'momentum':
        solver = tf.train.MomentumOptimizer(lr, momentum=0.9)
    else:
        r