机器学习模型中step与epoch，batch_size之间的关系

Cy_coding

于 2020-11-14 01:39:35 发布

阅读量1.9w

点赞数 34

分类专栏： tensorflow 机器学习深度学习文章标签：神经网络深度学习机器学习人工智能 tensorflow

本文链接：https://blog.csdn.net/Cy_coding/article/details/109685654

版权

本文探讨了机器学习模型中step、epoch和batch_size的概念。step指的是梯度更新的过程，一个epoch内，若每批数据(batch_size)为100，而总数据量为2000，则需要20个step完成一个epoch。通过理解这些参数，可以更好地调整学习率以优化模型训练。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

本文主要谈谈自己对step，epoch，batch_size这几个常见参数的理解。
最近在调试模型的时候，发现在使用keras.optimizer.adam时，模型在添加了新的一层2D卷积层后难以收敛，在不调整初始权重矩阵的情况下，想通过衰减学习率来使loss function的收敛性更好。

tf.keras.optimizers.Adam(
    learning_rate=0.001,
    beta_1=0.9,
    beta_2=0.999,
    epsilon=1e-07,
    amsgrad=False,
    name="Adam",
    **kwargs
)

可以看到，adam这个optimizer在没有其他参数条件的情况下，默认学习率为固定0.001。

为了调整学习率，在keras的文档中找到了下述示例代码，代码的意思很简单，初始学习率为0.01，衰减需要的step为10000，衰减率为0.9，即每次经过10000 steps，学习率就衰减为原来的0.9。

lr_schedule = keras.optimizers.schedules.ExponentialDecay

最低0.47元/天解锁文章