李宏毅机器学习-梯度下降

最新推荐文章于 2023-03-04 17:33:17 发布

想想虔诚怎么做

最新推荐文章于 2023-03-04 17:33:17 发布

阅读量274

点赞数

分类专栏：机器学习文章标签：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_41409438/article/details/104878747

版权

机器学习专栏收录该内容

4 篇文章 0 订阅

订阅专栏

文章目录

学习率 learning rates
随机梯度下降
特征缩放
泰勒展开式
- 多变量展开式
梯度下降限制

学习率 learning rates

在这里插入图片描述

学习率的调整

learning rate 太小了下降得太慢
learning rate 太大了下降的很快很可能永远达不到最低点
在这里插入图片描述

自适应学习率

随着次数的增加，通过一些因子来减少学习率通常刚开始，初始点会距离最低点比较远，所以使用大一点的学习率，update好几次参数之后呢，比较靠近最低点了，此时减少学习率
在这里插入图片描述

Adagrad 算法

在这里插入图片描述

在这里插入图片描述
在 Adagrad 中，当梯度越大的时候，步伐应该越大，但下面分母又导致当梯度越大的时候，步伐会越小。考虑的更多的是反差，如果有某个参数反差很大，分母是过去的gradient。

最好的步伐应该是一次微分/二次微分
在这里插入图片描述

随机梯度下降

经典的梯度下降法采用所有的训练数据的平均损失来近似目标函数。经典的梯度下降法在每次对模型参数进行更新时，需要遍历所有的训练数据。当M很大的时候，就需要耗费巨大的计算资源和计算时间，这在实际过程中基本不可行。那么，该怎么办呢？
为了解决该问题，随机梯度下降法(Stochastic Gradient Descent, SGD)应运而生。它采用单个训练样本的损失来近似平均损失

特征缩放

泰勒展开式

在这里插入图片描述

在这里插入图片描述

多变量展开式

在这里插入图片描述

梯度下降限制

local minima
stuck at saddle point
very slow at the plateau
在这里插入图片描述

想想虔诚怎么做

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
李宏毅机器学习-梯度下降

文章目录学习率 learning rates学习率的调整自适应学习率Adagrad 算法随机梯度下降特征缩放泰勒展开式多变量展开式梯度下降限制学习率 learning rates学习率的调整learning rate 太小了下降得太慢learning rate 太大了下降的很快很可能永远达不到最低点自适应学习率随着次数的增加，通过一些因子来减少学习率通常刚开始，初始点会距离最...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。