李宏毅机器学习（2017full）-Lecture 3 : Gradient Descent

最新推荐文章于 2022-06-05 21:13:47 发布

星琳之梦

最新推荐文章于 2022-06-05 21:13:47 发布

阅读量1.5k

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/sinat_19628145/article/details/81586064

版权

机器学习专栏收录该内容

5 篇文章 0 订阅

订阅专栏

- Gradient Descent ML03

Gradient Descent ML03

在ML的第三个步骤，需要找到最好的function，所以实际需要解决一个最优化问题

（求解使得损失函数 $L(\theta)$ 最小时的 $\theta$ ， $L$ 为损失函数， $\theta$ 为模型中的参数）

在ML的第二步需要定义一个LossFunction L（是函数的函数）=>输入的自变量是一组参数越小越好

假设有两个参数 ${\theta}$ ，初始化之后，不断根据学习率和gradient $\bigtriangledown$ 对参数进行更新。

θ 2 = θ 1 - η ▽ L (θ 1)

$\theta ^{2}=\theta ^{1}-\eta \bigtriangledown L(\theta ^{1})$

梯度下降步骤

gradient是vector，图中红色箭头，Loss等高线的法线方向。

1533017556008

Tip1 小心调整Learning Rate

Learning Rate：

画出参数的变化与Loss之间的关系图，看每次update的参数的走势。

对于small的learning tate，Loss会下降很缓慢。
对于large的learning tate，Loss会一开始下降比较快，但会停住，不再下降。
对于very large的learning tate，Loss会爆炸，无法下降。
对于just make的learning tate，Loss会以一个适当的速度下降，且能降到最低点。

这里写图片描述

Adaptive Learning Rates

自动更新

基本原则：随着参数的更新lr会越来越小。

流行且简单的方法，在不同周期，通过调整一些因素来减小学习率。

在开始时，离目标点较远，可以选择大一点的学习率。
在后面的周期中，离目标点变近，可以减小学习率。
假设lr是t的函数，dependent参数，update次数，η是一个常量，t为第t个周期， $\eta ^{t}=\eta /\sqrt{t+1}$

学习率不会one-size-fits-all

每个不同的参数都应该有不同的lr。

这里写图片描述

Adagrad

对每一个参数的学习率，除以它之前微分值的均方差 root mean square
w是某一个参数，每一个参数都给不同的lr，每个参数分开考虑
注意理解公式 wt+1←wt=ηtσtgt ,不同参数的lr都不同
- $\eta^t$ 就是第 $t$ 个周期的学习率
- $g^t$ 就是损失函数 $L$ 对 $w$ 的偏微分
- $\sigma^{t}$ 就是参数 $w$ 之前所有偏微分的均方差

这里写图片描述

Adagrad步骤：

这里写图片描述

Adagrad的更新公式， $w$ 的简化

Adagrad整体而言最后会变慢，（Adam是现在较为稳定的）

Contradiction

Adagrad中， $w$ 更新和批梯度下降方法更新中 $g^t$ 不同

$g^t$ 使得：更大的梯度，更大的步长
分母使得：更大的梯度，更小的步长

解释：

Adagrad 为了解释反差，今天的gradient有多反差。假设某一个参数，在某一个时候特别大或者小。

直觉的解释是：XXXX（分母项，之前所有倒数的均方差）是为了造成反差萌（原话）

正式的解释：

一个参数：(下图二次函数）

二次函数(上图)对x作微分（下图），那么想要到最低点 $x=-\frac{b}{2a}$ ， $x_0$ 需要走 $|x_0+\frac{b}{2a}|$ ，也就是 $\frac{|2ax_0+b|}{2a}$ ,分子也就是 $x_0$ 这一点的微分。即最好的步伐跟微分大小呈正比。（仅考虑一个参数）
微分越大，距离最低点越远。更大的一次导数意味着离最小值更远（可以从图像看出，不管是第一象限，还是第二象限，离最小值越远的点，导数值越大）

在只考虑一个参数的时候，如果踏出的步伐和微分一样是最好的。

Comparison between different parameters

同时考虑很多参数时候：

微分越大，和最低点距离越远。在很多参数情况下不一定成立
左图的颜色是loss
$w_1$ 中a的微分较大，距离最低点较远， $w_2$ 中 $c$ 的微分较大，距离最低点较远，但是 $c$ 距离最低点较 $a$ 近

最好的步伐gradient跟微分大小呈正比，没考虑跨参数情况

分母的来源：二次微分。

最好的步长需要正比于一次微分，反比于二次微分。

图中：

$w_1$ 方向上，二次微分较小，较为平滑
$w_2$ 方向上，二次微分较大，变化较为剧烈，图像比较尖。
综合考虑一次和二次微分，才能真正反映现在的位置同最低点的距离

与Adagrad的关系

在没有增加任何额外运算前提下，如何加入对二次微分的考虑。即分母与最佳步长中二次微分的关系。
在某一个范围内，对多个点进行采样。

对于比较平滑的峡谷（左侧蓝图），一次微分（左下）通常较小。尖的一次微分较大。
对所有采样点进行平方和。过去所有一次微分平方和，就反映了二次微分的大小。

Tip2 Stohastic Gradient Descent

每次就拿一个样本 $x$ 出来，Loss只考虑一个example。

在update参数的时候只考虑这一个example。

Gradient Descent：看到所有example之后进行更新（左图更新一次）

SGD：看到一个example后逐个进行参数更新（右图更新20次）。步伐小且散乱

Tip3 Feature Scaling

regression： $y=b+w_1x_1+w_2x_2$ 预测宝可梦进化之后的CP值。
两个输入的feature $x_1,x_2$ ,如果两个feature的分布不同，最好可以做一下scaling，使得两个特征的分布相同。

为什么这么做：

$y=b+w_1x_1+w_2x_2$

左图 $w_2$ 对y的变化影响很大，对LOSS影响也会很大，在 $w_2$ 方向上的变化很剧烈。椭圆，不会指向最低点走。
右图有scaling的时候。会一直向着圆心走。更有效率

如何做scaling？

方法有很很多，常见方法如下：

有R个样本，每个样本 $i$ 维，对于第 $r$ 个样本的第 $i$ 个元素 $x_{r}^{i}\leftarrow \frac{x_{r}^{i}-m^{i}}{\sigma ^{i}}$

样本中所有dimension的均值为0，方差为1。

Gradient Descent Theroy

判断：每次更新参数之后，得到一个新的 $\theta$ ,会让我们的Loss较小嘛？
错误.update之后loss不一定会下降。

Warning of Math

从数学角度（主要是泰勒级数）解释梯度下降的合理性

起始点： $\theta^0$ ，可以在红圈范围中找到最低点。

如何在红色圈中快速找到使得loss最小的参数

泰勒：

任何一个函数，如果在 $x=x_0$ 这一点的时候是无穷次可微的，则可以泰勒展开（微积分）
当 $x$ 很接近 $x_0$ 的时候， $(x-x_0)>>(x-x_0)^2>>(x-x_0)^3……$ 后面的高次项可以省略。
下一张ppt是 $sin(x)$ 的例子

依次考虑前几项得到的图像。

初始中心点 $(a,b)$ ，在红色圈范围内，可以把Loss近似写成： $s+u(\theta_1-a)+v(\theta_2-b)$
相当于两个向量相乘， $(u,v)和(\theta_1-a,\theta_2-b)$

和 $(u,v)$ 反方向且长度相同的向量，和其相乘之后数值最小。

为了在红色圈找最小值，就是中心点 $(a,b)$ 减掉 $\eta$ 乘上 $(u,v)$

得到的式子就是gradient descent。前提是泰勒展开是精确的。
lr无穷小的时候才会成立。
所以lr没有设置好，LOSS可能不会越来越少。

more limitation of gradient descent

容易卡在局部最小处、鞍点、
微分很小也有可能是高原的地方。

参考【机器学习（李宏毅）】四、Gradient Descent
Gradient Descent课程视频

确定要放弃本次机会？
福利倒计时
: :

立减 ¥
普通VIP年卡可用
立即使用

星琳之梦

关注关注

0
点赞

踩

0

收藏

觉得还不错? 一键收藏

0
评论

复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

Gradient Descent

liupc的学习笔记

01-18 7859

//李宏毅视频官网：http://speech.ee.ntu.edu.tw/~tlkagk/courses.html 点击此处返回总目录 //邱锡鹏《神经网络与深度学习》官网：https://nndl.github.io 今天要讲的是Gr...

李宏毅机器学习（2017full）-Lecture 1: Regression - Case Study

星琳之梦的博客

08-02 1337

Regression (Case Study) ML01 regression 输出是数值如：股票预测，自动驾驶（输入是各种sensor，输出方向盘角度），推荐系统 example 预测宝可梦的CP值。 source : http://www.openintro.org/stat/data/?data=pokenman 哈，真的，听课很开心~~） input（xxx）：某一只宝...

参与评论您还未登录，请先登录后发表或查看评论

梯度下降法小结

weixin_43328509的博客

11-24 255

1. 梯度　　　　在微积分里面，对多元函数的参数求∂偏导数，把求得的各个参数的偏导数以向量的形式写出来，就是梯度。比如函数f(x,y), 分别对x,y求偏导数，求得的梯度向量就是(∂f/∂x, ∂f/∂y)T,简称grad f(x,y)或者▽f(x,y)。对于在点(x0,y0)的具体梯度向量就是(∂f/∂x0, ∂f/∂y0)T.或者▽f(x0,y0)，如果是3个参数的向量梯度，就是(∂f/∂x...

Gradient Descent (一)

likyoo的博客

11-09 636

ML三个基础的步骤： find a model goodness of function get the best function Gradient Descent是 step3 常用的方法。它要求loss function是可微分的。怎么做Gradient Descent呢？通常有下面几个步骤：（这里以loss function有一个参数为例）对 L(w): 我们的目的...

李宏毅机器学习Lecture 1：回归 - 案例研究

MapleStory的博客

12-04 1214

ML Lecture 1: Regression - Case Study 本笔记有配套的Jupyter Notebook演练，包含tensorflow基础api实现的单变量线性回归与多元线性回归，以及对梯度下降训练过程的改进讲解，同时包括高级lib如sklearn与keras的线性回归实现。欢迎在读完笔记后去实际演练一下哟~ 如果觉得本系列文章对您有帮助的话，麻烦不吝在对应的github项目上...

李宏毅老师《机器学习》课程笔记-5 Transformer

宁萌Julie的博客

06-05 1195

详细介绍大名鼎鼎的 Transformer 。

李宏毅老师《机器学习》课程笔记-1深度学习简介

宁萌Julie的博客

05-02 1772

本文是我学习李宏毅老师《机器学习》课程 2021/2022 -lecture1 的笔记，欢迎交流和多多指教！

李宏毅——一天搞懂深度学习PPT学习笔记

The wind of freedom blows

11-27 1113

李宏毅一天搞懂机器学习PPT，SildeShare链接（需要梯子）：https://www.slideshare.net/tw_dsconf/ss-62245351?qid=108adce3-2c3d-4758-a830-95d0a57e46bc&v=&b=&from_search=3 也可以在csdn下载中下载（资源附学习笔记全文）：https://download.cs...

机器学习 -- Gradient Descent

01-30

Gradient Descent Review: Gradient Descent Tip 1: Tuning your learning rates Adaptive Learning Rates Adagrad Contradiction Intuitive Reason Larger gradient, larger steps

gradient-descent-wikipedia_gradientdescent_descent_

09-29

matlab code for gradient descent

梯度下降法（Gradient Descent）

Carroll的博客

07-28 4307

梯度下降法（英语：Gradient descent）是一个一阶最优化算法。要使用梯度下降法找到一个函数的局部极小值，必须向函数上当前点对应梯度（或者是近似梯度）的反方向的规定步长距离点进行迭代搜索。如果相反地向梯度正方向迭代进行搜索，则会接近函数的局部极大值点；这个过程则被称为梯度上升法。梯度下降法是最早最简单，也是最为常用的最优化方法。梯度下降法实现简单，当目标函数是凸函数时，梯度下降法的解是全局解。一般情况下，其解不保证是全局最优解，梯度下降法的速度也未必是最快的。梯度下降法的优化思想是用当.

梯度下降Gradient descent

newxuyangcao

04-28 1517

来源：http://cs231n.github.io/optimization-1/ 对于一个分类问题，可以概括为以下三部分: score function + lossfunction + optimization. 以图像分类为例，我们选择线性分类器，那么scorefunction可以写成如下形式：同时Multiclass SupportVector Machine los

Gradient Descent(梯度下降法)

ws_6868的博客

01-31 400

默认你已经了解了导数，偏导，梯度和方向导数的概念直观理解比如我们在一座大山上的某处位置，这时候突然阴云密布，我们想要快速的下山，但是我们不知道怎么下山，于是决定走一步算一步，可是怎么走一步算一步呢？有种方法是这样我们先环顾下四周（360度）看一下哪里山坡最陡，然后向最陡峭的地方走一步，一致重复这个过程，按照这个方法一直到走到最低点（这个最低点事局部最优，因为按照这种方法我们是...

Gradient Descent(梯度下降详解)

ygp12345的博客

09-29 1542

Review Gradient Descent 如上图所示，我们回想一下如何用梯度下降求最好的w和b。这里我们使用θ1和θ2两个参数，我们让这俩随机赋初始值。η是学习率，具体每次迭代的公式已写出。L(θ)是损失函数。【注】上述公式里面的那些符号就是求偏导和向量。。。。意会一下就清楚了 Tuning your learning rates Adagrad Stochastic Gradient Descent Make the training faster Feature Sc

机器学习（李宏毅）—— Gradient Descent

mooc1212的博客

03-13 1384

谨慎的调整学习率：，其中是学习率。在调整学习率时要把不同学习率的Parameter-Loss曲线画出来，以便观察如何调整学习率参数（学习率太大收敛到一定程度时Loss还很大，学习率太小时收敛速度慢）。 Adaptive Learning Rates：在开始时离目标很远，设置较大的学习率；在经过几个epoch后离目标很近，需要设置较小的学习率（学习率随着epoch的增加呈现出衰减的趋势，例如，是最初设置的学习率）。对于不同的参数设置不同的学习率。 Adagrad：，，，，是...

Gradient-Descent

qq_43727105的博客

01-16 594

title: Gradient Descent date: 2020-01-12 12:41:33 tags: [Gradient Descent] categories: Machine Learning 文章目录title: Gradient Descent date: 2020-01-12 12:41:33 tags: [Gradient Descent] categories: Mach...

李宏毅机器学习HW5-Transformer数据

最新发布

08-11

李宏毅的机器学习课程中提到的HW5（作业5），可能涉及到Transformer模型在自然语言处理任务中的应用。Transformer是一种基于自注意力机制的深度学习模型，最初由Google在2017年提出的BERT（Bidirectional Encoder ...