在深度学习中,因为我们通常的目标是使模型的损失达到最小。而目标函数有关自变量的梯度代表了目标函数在自变量当前位置下降最快的方向,因此我们常使用梯度下降系列的优化算法来迭代参数,减小损失。
下面介绍一下梯度下降,随机梯度下降,以及小批量梯度下降之间的联系与区别。
梯度下降:直接加载所有的样本进行训练,取每个样本对应特征的梯度的累积和,再除以样本个数。作为该次循环整个样本对应特征的迭代梯度。
随机梯度下降:每次训练加载对所有样本进行随机均匀采样得到的一个样本,利用该样本的特征来对目标函数进行迭代。这样做的好处是减小了每次迭代的计算开销。指的强调的是随机梯度 ∇𝑓𝑖(𝑥) 是对梯度 ∇𝑓(𝑥) 的无偏估计。
小批量梯度下降:每次训练加载对所有样本进行随机均匀采样多个样本,利用这个小批量样本的特征来对目标函数进行迭代。
三者之间的联系:
当使用梯度下降时,有时候训练集过大,内存可能存储不下而爆掉,同时,一次性加载所有的数据集也
梯度下降,随机梯度下降,小批量梯度下降的联系与区别
最新推荐文章于 2022-08-09 10:48:15 发布
本文探讨了深度学习中梯度下降、随机梯度下降和小批量梯度下降的区别与联系。梯度下降计算全部样本的梯度,随机梯度下降每次仅用一个样本,而小批量梯度下降介于两者之间,适用于大规模数据集。在实际操作中,小批量梯度下降因兼顾计算效率和模型稳定性,成为常用选择。
摘要由CSDN通过智能技术生成