epoch,batch,loss,val_loss相关概念

最新推荐文章于 2025-03-11 14:57:19 发布

思考实践

最新推荐文章于 2025-03-11 14:57:19 发布

阅读量1.1w

点赞数 22

分类专栏：人工智能、机器学习、深度学习

本文链接：https://blog.csdn.net/weixin_43332715/article/details/118763478

版权

人工智能、机器学习、深度学习专栏收录该内容

109 篇文章

订阅专栏

1、epoch

Keras官方文档中给出的解释是：“简单说，epochs指的就是训练过程接中数据将被“轮”多少次”

（1）释义：

训练过程中当一个完整的数据集通过了神经网络一次并且返回了一次，这个过程称为一个epoch，网络会在每个epoch结束时报告关于模型学习进度的调试信息。

（2）为什么要训练多个epoch，即数据要被“轮”多次

在神经网络中传递完整的数据集一次是不够的，对于有限的数据集（是在批梯度下降情况下），使用一个迭代过程，更新权重一次或者说使用一个epoch是不够的，需要将完整的数据集在同样的神经网络中传递多次，随着epoch次数增加，神经网络中的权重的更新次数也增加，模型从欠拟合变得过拟合。

2、batch

（1）keras官方文档中给出的解释：

深度学习的优化算法，说白了就是梯度下降。每次的参数更新有两种方式：

第一种，遍历全部数据集算一次损失函数，然后算函数对各个参数的梯度，更新梯度。这种方法每更新一次参数都要把数据集里的所有样本都看一遍，计算量开销大，计算速度慢，不支持在线学习，这种称为Batch gradient descent,批梯度下降

另一种，每看一个数据就算一下损失函数，然后求梯度更新参数，这个称为随机梯度下降，stochastic gradient descent.这个方法速度比较快，但是收敛性能不太好，可能在最优点附近晃来晃去，hit不到最优点，两次参数的更新也有可能互相抵消掉，造成目标函数震荡的比较剧烈。

为了克服两种方法的缺点，现在一般采用的是一种折中手段，mini-batch gradient decent，小批的梯度下降，这种方法把数据分为若干个批，按批来更新参数，这样，一个批中的一组数据共同决定了本次梯度的方向，下降起来就不容易跑偏，减少了随机性。另一方面因为批的样本数与整个数据集相比小了很多，计算量也不是很大。

（2）batch_size:

Keras中参数更新是按批进行的，就是小批梯度下降算法，把数据分为若干组，称为batch，按批更新参数，这样，一个批中的一组数据共同决定了本次梯度的方向，一批数据中包含的样本数量称为batch_size。

3、iteration

将数据分为几个batch而不是一次性通过神经网络时，iteration是batch需要完成一个epoch的次数，也就是number of batches (区别于 batch size) ，在一次epoch中 number of batches = iteration = 训练样本总数 / batch size

比如，对于一个有2000个训练样本的数据集，将2000个样本分成大小为500的batch，那么完成一个epoch需要4个iteration

4、batch size 和 epoch 的选取

（1）训练网络过程中，一个batch中的样本规模大小，即batch size 和epoch个数一起通过影响更新权重的频率定义了网络学习数据的速度。

对于固定的epoch：

（a）在合理范围内，随着batch size增大，跑完一次epoch所需的迭代数减少，对于相同数据量的处理速度进一步加快，确定的下降方向越准，引起的训练震荡越小。

（b）batch size 过大时，跑完一次epoch所需的迭代数减少，想要达到相同的精度，所花费的时间大大增加了，从而对参数的修正也变得缓慢，batch size增大到一定程度，其确定的下降方向已经基本不再变化

对于固定的batch size:

（a）在合理范围内随着epoch的增加，训练集和测试集的误差呈下降趋势，模型的训练有了效果

（b）随着epoch的继续增加，训练集的误差呈下降而测试集的误差呈上升趋势，模型过拟合训练集对测试集性能不好

（2）实验实验，通过实验+经验选取合适的batch size 和 epoch

训练截图：