梯度下降策略

最新推荐文章于 2022-03-21 21:51:41 发布

python数据分析机器学习爱好者

最新推荐文章于 2022-03-21 21:51:41 发布

阅读量756

点赞数

分类专栏：基础学习 python 文章标签：数据分析机器学习 Python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_33543737/article/details/86571766

版权

基础学习同时被 2 个专栏收录

15 篇文章 0 订阅

订阅专栏

14 篇文章 0 订阅

订阅专栏

梯度下降原理

直观解释：比如我们在一座大山上的某处位置，由于我们不知道怎么下山，于是决定走一步算一步，也就是在每走到一个位置的时候，求解当前位置的梯度，沿着梯度的负方向，也就是当前最陡峭的位置向下走一步，然后继续求解当前位置梯度，向这一步所在位置沿着最陡峭最易下山的位置走一步。这样一步步的走下去，一直走到觉得我们已经到了山脚。当然这样走下去，有可能我们不能走到山脚，而是到了某一个局部的山峰低处。

从上面的解释可以看出，梯度下降不一定能够找到全局的最优解，有可能是一个局部最优解。当然，如果损失函数是凸函数，梯度下降法得到的解就一定是全局最优解。

梯度法思想的三要素：出发点、下降方向、下降步长。

引入：当我们得到一个目标函数后，如何进行求解？

直接求解？（并不一定可解，线性回归可以当做是一个特例）

常规套路：机器学习的套路就是我交给机器一堆数据，然后告诉它什么样的学习方式是正确的（目标函数），然后让它朝着这个方向去做

如何优化：一口吃不成个胖子，我们要静悄悄的一步一步完成迭代

举个栗子：

目标函数：

目的：寻找山谷的最低点，也就是我们的目标函数终点（什么样的参数能使得目标函数达到极值点）

下山分几步走呢？（更新参数）

（1）找到当前最合适的方向

（2）走那么一小步，求解当前位置梯度

（3）按照方向与步伐去更新我们的参数

梯度下降方法对比

梯度下降，目标函数：

批量梯度下降：

参数θ的每次更新，需要计算全部数据集的样本的负梯度方向，取均值作为下一次梯度下降的方向。

特点：

计算量大，参数更新慢，对内存的要求很高，不能以在线的形式训练模型，也就是运行时不能加入新样本

理论上讲，可以得到全局最优解，参数更新比较稳定，收敛方向稳定

随机梯度下降：

每次只选择一个样本来求得偏导，进行参数θ的更新。

特点：

运算速度很快，同时能够在线学习

随机梯度下降参数更新的过程震荡很大，目标函数波动剧烈，参数更新方向有很大的波动

其较大的波动可能收敛到比批量梯度下降更小的局部极小值，因为会从一个极小值跳出来

小批量梯度下降法：

该方法集合了批量梯度下降和随机梯度下降两者的优势，每次的参数更新利用一小批数据来完成。

特点：

降低了更新参数的方差，使得收敛过程更加的稳定

能够利用高度优化的矩阵运算，很高效的求得每小批数据的梯度

学习率对结果的影响

学习率（步长）：对结果产生巨大的影响，一般要小一些。学习速率的选择，可以尝试0.001、0.01、0.1、1。选择一个最大的学习速率，然后选择一个比它小一点点的学习率，通常能够找到最合适的学习速率来解决我们的问题。

批处理数量：32,64,128都可以，一般还要考虑内存和效率。

python数据分析机器学习爱好者

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
梯度下降策略

梯度下降原理直观解释：比如我们在一座大山上的某处位置，由于我们不知道怎么下山，于是决定走一步算一步，也就是在每走到一个位置的时候，求解当前位置的梯度，沿着梯度的负方向，也就是当前最陡峭的位置向下走一步，然后继续求解当前位置梯度，向这一步所在位置沿着最陡峭最易下山的位置走一步。这样一步步的走下去，一直走到觉得我们已经到了山脚。当然这样走下去，有可能我们不能走到山脚，而是到了某一个局部的山...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。