李宏毅机器学习笔记2-Gradient descent

本文介绍了梯度下降法的基本原理和局限性,探讨了Adagrad如何通过自适应学习率改进优化过程。Adagrad针对每个参数单独调整学习率,但在后期可能过于保守。此外,还提到了随机梯度下降(Stochastic Gradient Descent)加快训练速度的方法以及特征缩放在优化中的重要性,它能确保不同尺度的特征对模型影响的均衡,提高效率。最后,讨论了梯度下降可能陷入局部最小值或鞍点的问题。
摘要由CSDN通过智能技术生成

Gradient Descent 1

计算gradient
计算gradient 得到红色箭头
蓝色的箭头是movement
反复下去在这里插入图片描述
要小心的调 learning rate
蓝色 太小,太慢
绿色 没有办法走到最低的地方
黄色 一瞬间飞出去
可视化后所对应的损失函数与下右图所对应
在这里插入图片描述

Adaptive Learning Rates

在这里插入图片描述

Adagrad

在没有增加任何额外运算的前提下,想办法去估一下二次微分的值

每一个参数都分开来考虑
不同的参数,其learning rate都不一样
在这里插入图片描述
eg.
在这里插入图片描述
s q r t ( t + 1 ) 消 去 了 sqrt (t+1) 消去了 sqrt(t+1)
在这里插入图片描述
整体而言,越来越慢,其实后面很慢
在这里插入图片描述
会不会有点矛盾
g^t ,越大分母那儿越小
直观的解释:造成反差
在这里插入图片描述
更合理的解释:。
上图只考虑一个参数的时候才成立 ,2a是对y作二次微分的来的,出现在最好的步伐的分母的地方

同时考虑几个参数时
在这里插入图片描述
在这里插入图片描述
与一次微分成正比,二次微分成反比
在这里插入图片描述
要比较a的微分➗二次微分 和 c的微分➗二次微分

在这里插入图片描述
多采几个样,就可以估计,在比较平的峡谷里二次微分比较小,在比较陡的峡谷里,二次微分比较大

Stochastic Gradient Desecnt

让训练更快一点
Adagrad每次计算所有的gradient
Stochastic 里每次只考虑一个x(example)

在这里插入图片描述
在这里插入图片描述

Fearture Scaling

不同的feature 让他们的scale一样,即分布差不多
在这里插入图片描述
在这里插入图片描述

左图中
w1对y的影响较小,稍微改变一下w1,对loss影响不是很大,比较平滑,w1为轴来看
w2对y的影响较大,改变w2,对loss的影响就是比较shark的,w2为轴来看
同一组learning rate 比较难搞定,不断更新。按照梯度走开始时,不会指着圆心

右图中
scale比较接近,update参数比较容易,梯度一直向着圆心,比较有效率

怎么做feature scaling?
其中一种方法
在这里插入图片描述

Gradient Descent Theory

update参数后,loss不一定会下降
在这里插入图片描述
画一个很小的圆圈,总能在邻域内找到使值最小的点时的参数
在这里插入图片描述
taylor展式
考虑一个variable时的例子
在这里插入图片描述
橙色线为sin x
在这里插入图片描述
多个参数时
在这里插入图片描述
同理,证明总能在邻域内找到最小的值,知道此时的参数值
在这里插入图片描述
在这里插入图片描述
其实就是gradient descent
在这里插入图片描述
红色圈圈无穷小时,才能保证这件事

Limitation of Gradient Descent

会卡在local minima(局部最小)的地方
saddle point(极点)的地方也可能卡住
在这里插入图片描述

视频链接

1 小破站
2 他的网页

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值