三种基本梯度下降策略的简单介绍

最新推荐文章于 2022-03-21 21:51:41 发布

limuyia

最新推荐文章于 2022-03-21 21:51:41 发布

阅读量658

点赞数

分类专栏：笔记文章标签：机器学习随机梯度下降

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/limuyia/article/details/106916573

版权

笔记专栏收录该内容

6 篇文章 0 订阅

订阅专栏

批量梯度下降

每次迭代用所有的样本计算误差进行梯度更新，从运算上来说把全部样本用矩阵进行计算最简单暴力，同时因为是参照所有样本计算的误差所以能更好的代表预测整体的水平，而且当函数为凸函数时一定会找到最优解。

批量梯度不适用于样本量特别大的学习，虽然是用了矩阵，但是计算过大的数据量会让计算过程变得很慢，效率不高。

随机梯度下降

与批量梯度下降的策略相反，每次迭代仅用随机的一个样本计算误差进行梯度更新，从效率上来说计算梯度并进行参数更新是最快的。

随机梯度下降，梯度下降的过程是随机的，因为任何一个单个样本都无法代表整体样本，因此每次的梯度计算和参数更新都是针对于局部的，虽然效率高且不受样本数的影响，但是可能会陷入局部最优而不是全局最优（在函数是强凸情况下也一样会存在该问题）。

小批量梯度下降

是“随机”与“整体”的一个平衡策略，即每次选取batch_size个样本进行梯度计算和参数更新，一定程度上同时拥有批量梯度下降和随机梯度下降的优点。

小批量梯度下降表现的优劣取决于batch_size的选取，两个极端情况，batch_size等于样本数量就成为了批量梯度下降，等于1就成为了随机梯度下降。合理的选择batch_size的大小时，收敛的路线是批量梯度下降和随机梯度下降的“平衡”，即加快了批量梯度下降的收敛过程，减弱了随机梯度下降的震荡。

三种梯度下降策略收敛图

图片来源于其他博客，可以形象的展示出三种梯度下降策略收敛途径。
在这里插入图片描述

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
三种基本梯度下降策略的简单介绍

批量梯度下降每次迭代用所有的样本计算误差进行梯度更新，从运算上来说把全部样本用矩阵进行计算最简单暴力，同时因为是参照所有样本计算的误差所以能更好的代表预测整体的水平，而且当函数为凸函数时一定会找到最优解。批量梯度不适用于样本量特别大的学习，虽然是用了矩阵，但是计算过大的数据量会让计算过程变得很慢，效率不高。随机梯度下降与批量梯度下降的策略相反，每次迭代仅用随机的一个样本计算误差进行梯度更新，从效率上来说计算梯度并进行参数更新是最快的。随机梯度下降，梯度下降的过程是随机的，因为任何一个单个样本都无法
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。