改善深层神经网络：超参数调整、正则化以及优化——2.1 Mini-batch梯度下降

最新推荐文章于 2020-05-12 17:02:18 发布

然后就去远行吧

最新推荐文章于 2020-05-12 17:02:18 发布

阅读量207

点赞数

分类专栏：吴恩达深度学习

本文链接：https://blog.csdn.net/qq_37388085/article/details/103722143

版权

吴恩达深度学习专栏收录该内容

61 篇文章 30 订阅

订阅专栏

机器学习的应用是一个高度依赖经验的过程，优化算法能够帮助你快速训练模型。深度学习没有在大数据领域发挥最大的效果我们可以利用一个巨大的数据集来训练神经网络，而在巨大的数据集基础上进行训练速度很慢。

因此，使用快速的优化算法，使用好用的优化算法能够大大提高效率，现在谈谈mini-batch梯度下降法。

向量化能有效地对所有m个例子进行计算，允许处理整个训练集而无需某个明确的公式，所以我们要把训练样本放到巨大的矩阵X中，如下 $X=[x^{(1)},x^{(2)},...,x^{(m)}]$ $Y=[y^{(1)},y^{(2)},...,y^{(m)}]$ $X$ 的维数是 $n_x,m)$ ， $Y$ 的维数是 $(1, m)$ ，向量化能相对较快地处理所有m个样本，但如果m很大的话，处理速度仍然缓慢，比如说m是500万或者5000万或者更大的一个数，在对整个训练集执行梯度下降法时，必须处理整个训练集，然后才能进行一步梯度下降法，然后需要再重新处理500万个训练样本才能进行下一步梯度下降法。

所以如果在处理完整个500万个样本的训练集之前，先让梯度下降法处理一部分，算法速度会更快。可以把训练集分割为小一点的子训练集，这些子集被取名为Mini-batch，假设每一个子集中只有1000个样本，那么将其中的 $x^{(1)}$ 到 $x^{(1000)}$ 取出来，将其称之为第一个子训练集，也叫做Mini-batch，然后再取出接下来的1000个样本，从 $x^{(1001)}$ 到 $x^{(2000)}$ ，然后再取1000个样本，以此类推。