梯度下降的进一步学习---李宏毅《机器学习》笔记04

最新推荐文章于 2024-04-05 19:52:27 发布

ppsswhite

最新推荐文章于 2024-04-05 19:52:27 发布

阅读量86

点赞数 1

分类专栏：李宏毅《机器学习》

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ppsswhite/article/details/119832485

版权

学习率 Adagrad 随机梯度下降特征缩放深度学习优化

关键词由CSDN通过智能技术生成

李宏毅《机器学习》专栏收录该内容

5 篇文章 0 订阅

订阅专栏

文章目录

一、调整learning rate
二、随机梯度下降法
三、特征缩放
- 3.1 为什么要特征缩放？
- 3.2 怎么做缩放？
四、梯度下降的理论基础

一、调整learning rate

1.1 自适应学习率

刚开始，初始点距离最低点比较远，所以可以采用大一点的学习率
逐渐接近最低点时减少学习率
因此可以通过一些因子来减少学习率
例如 $\eta^t=\eta^t/(t+1)^{1/2}$

1.2 Adagrad算法

不同参数需要不同的学习率
每个参数的学习率都把它除以之前微分的均方根
比如，普通的梯度下降： $w^{t+1}=w^t-\eta^tg^t$ $\eta^t=\eta^t/(t+1)^{1/2}$ $g^t=\partial L(\theta^t) / \partial w$
使用Adagrad： $w^{t+1}=w^t-\eta^tg^t/\sigma^t$
$\sigma^t$ 为该参数所有微分的均方根，因此对于每个参数都不一样

1.3 Adagrad算法存在的矛盾？

在 Adagrad 中，当梯度越大的时候，步伐应该越大，但下面分母又导致当梯度越大的时候，步伐会越小。所以如果踏出去的步伐和微分成正比，它可能是比较好的。因此得出结论：梯度越大，离最低点的距离越远。这个结论在多个参数的时候就不一定成立了。
最好的步伐应该是一次微分/二次微分
得到adagrad进一步的解释

二、随机梯度下降法

随机挑选一个例子来计算loss函数，赶紧更新参数

三、特征缩放

3.1 为什么要特征缩放？

个人认为可以按归一化理解，消除量纲的影响

3.2 怎么做缩放？

例子，类似标准化

四、梯度下降的理论基础

这部分挖个坑，回头再更

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
梯度下降的进一步学习---李宏毅《机器学习》笔记04

文章目录一、调整learning rate二、使用步骤1.引入库2.读入数据总结一、调整learning rateError主要来源于bias和variance二、使用步骤1.引入库代码如下（示例）：import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport seaborn as snsimport warningswarnings.filterwarnings('ignore')impor
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。