Mini-batch gradient

最新推荐文章于 2024-07-09 14:52:31 发布

楽楽gy

最新推荐文章于 2024-07-09 14:52:31 发布

阅读量2k

点赞数 1

分类专栏：机器学习神经网络

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u010601901/article/details/46821065

版权

机器学习同时被 2 个专栏收录

5 篇文章 0 订阅

订阅专栏

5 篇文章 0 订阅

订阅专栏

Mini-batchgradient

1 gradient descent又可以被称为steepest descent

2 梯度下降算法误差曲线：一般的梯度下降算法误差曲线是椭圆形的，这样就会存在问题，例如，实际要跨的步子可能很小，但是梯度算法求解出来的步子很大；实际要跨的步子可能很大，但是梯度下降算法求解出来的步子很小。所以，好的做法是将椭圆形的误差面转化成为圆形的误差面，这也是下面的改进所要完成的事情。

3 如果数据集中存在大量的冗余，那么使用前一半数据得到的梯度下降结果和使用另一半的结果相同，那么此时就不需要使用全部的数据进行权重的训练，可以先使用一半数据训练得到一组权重，然后再使用另一半，更新上述得到的权重。这种极端情况就是随机梯度学习。

4 mini-batchgradient 优点：

（1）在权重更新的过程中，计算量要少于使用随机梯度下降算法

（2）梯度下降算法在计算的过程中会涉及到矩阵间乘法，这个可以通过并行计算完成

5 mini-batchgradient 的注意点：以分类问题为例：提取的数据中应该要尽可能的包含所有的分类情况。

6 mini-batchgradient处理的小技巧：

（1）初始化权重：

如果初始化权重相同，然后输入也相同，那么就会导致结果也相同，这样就没有办法了解数据之间的差异性。所以采用随机初始化的方法。同时如果输入项个数很多时，要减小权重，以防止学习过程中迭代过度。

（2）改变输入项数据：shifting inputs（数据整体进行缩放，不同坐标轴上数据的缩放是一致的）,scaling inputs(坐标轴整体的缩放，不同坐标轴上的数据缩放比例可以不一样)

（3）主成分分析方法：当输入项彼此之间存在很强的关联性时，得到最优值的过程是漫长的，所以降低输入项彼此间的相关性是必要的。所以，采用PCA（主成分分析方法）可以将输入项转变为彼此不相关。

7 提高mini-batch gradient学习的速度

(1) 动量梯度下降算法（mpmentum method）

梯度下降算法的目标是最终获得一个全局最优值，以抛物线为例，最终会停在最低点不动，从动量的角度来说，每次在权重更新的过程中都会存在能量的流失，到最后就会彻底停在某个点上。

动量梯度下降算法的过程是，一开始根据梯度下降算法指定的方向运动，当获得一定的速度以后，就不会再按照梯度下降算法的方向运行

(2) 学习效率自适应:

(1) Rmsprop:

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。