梯度下降法:
指定一个对各个参数的损失函数,然后利用损失函数对各个参数求偏导,利用这个偏导更新各个参数的值,希望最后能迭代出最优的参数值。
SGD 随机梯度下降:
SGD每次利用一个训练数据计算损失函数,更新参数的值。
mini-batch SGD:
每次利用总体训练数据的一部分计算损失函数。
参考:
https://blog.csdn.net/tsyccnh/article/details/75948021
https://blog.csdn.net/tsyccnh/article/details/76064087
https://blog.csdn.net/tsyccnh/article/details/76136771