深度学习_07_1_随机梯度下降_梯度下降简介&常见函数梯度

最新推荐文章于 2024-05-21 22:51:01 发布

小明2766

最新推荐文章于 2024-05-21 22:51:01 发布

阅读量409

点赞数

分类专栏： # 深度学习&Tensorflow 文章标签： python 机器学习深度学习 tensorflow

本文链接：https://blog.csdn.net/bill2766/article/details/114872145

版权

深度学习&Tensorflow 专栏收录该内容

25 篇文章 6 订阅

订阅专栏

07_1_随机梯度下降_梯度下降简介&常见函数梯度

Gradient Descent 梯度下降-简介

Outline

What’s Gradient 什么是gradient
What does it mean gradient代表了什么意思
How to Search 怎么搜索最小值
AutoGrad 怎么用TensorFlow搜索

What’s Gradient?

导数，derivative

高中学的导数一般来说是一维的， $\lim\limits_{x \rightarrow val} \Delta y$ ，表示为x趋近于某个值后y的变动率，所接触的一般是一、二维的函数。一般来说沿着x的变动率，但实际上对于二、三维的数，它的导数可以沿着任意的方向。像下图马鞍的曲面，在x，y，z三个方向都有导数。所以导数更多是通用的概念，它代表函数按某个方向前进变动的范围。

这个范围就定义为导数，当考虑变动的方向，是一个标准的方向，比如说沿着x轴、y轴变动的时候，得到导数（偏微分）， $\frac{\delta z}{\delta x}$ ，就是z沿着x轴方向变动范围，与y无关。 $\frac{\delta z}{\delta y}$ ，当它沿着y轴变动的时候，就是2y的变动率。

所有的偏微分合在一起得到向量，方向代表综合的导数方向，是由每个轴z对x1，z对x2合在一起的向量，这个向量叫做梯度。

因此，导数与梯度有区别，导数更高层通用的概念；偏微分沿着某个具体的轴变动范围，是标量；梯度是每个轴组合而成的向量。
偏微分，partial derivative
梯度，gradient

在这里插入图片描述

What does it mean?

这是一个漏斗形状的函数，计算每个点的梯度，是沿x偏微分和y偏微分合在一起的向量，箭头方向表示gradient的方向，长度代表模，表示强度。从函数可以看出中间是源头，向四周扩散，右边的曲面上升最快，模很大；到顶部后，变平坦了，模几乎为0。

->可知梯度的方向代表函数值增大的方向，然后梯度的模代表函数增大的速率。

右图例子类似。

在这里插入图片描述

How to search？

如何搜索最小值？

Gradient方向代表函数增大的方向，那我们只需要简单的把当前的参数值按照梯度值相反的方向去行进更新，得到 $\theta_{t+1}$ ，很大可能会比 $\theta_t$ 好。 $\alpha_t$ 表示lr(learning rate)， $\eta$ 也是lr的意思。

在这里插入图片描述

实例：

对于 $J(\theta) = \theta_1^2 + \theta_2^2$ ，最小值为 $\theta_1$ 为0， $\theta_2$ 为0的时候。第四部分已经算出偏微分，以 $\theta_1$ 为4， $\theta_2$ 为-4为例， $\Delta \theta_1$ 为8， $\Delta \theta_2$ 为-8，所以 $\theta_1' = 4 - 0.01*8$ ， $\theta_2' = -4 - (-0.01*8)$ 。在往最小的0,0方向靠近。

在这里插入图片描述

1维的函数例子：

从任何点出发，向梯度反方向行进总是得到极小值点，如果是局部最小值，往往来说情况比较好。

在这里插入图片描述

2维的函数例子：

不同的线是不同的优化器，精髓还是 $\theta - lr * \Delta \theta$ 的公式，只是优化线路不同。比如红色的SGD（stochastic[随机] gradient decent）往往是最慢的，Rmsprop会快一些。

在这里插入图片描述

AutoGrad

利用TensorFlow求解梯度，自动更新参数。

把计算过程包在With tf.GradientTape() as tape:环境里去
利用[w_grad] = tape.gradient(loss,[w])方法传入loss，要求解的参数，则会返回参数的梯度list。如果有w1,w2,w3，有几个返回几个。

在这里插入图片描述

GradientTape

具体的实例：

图中表示函数一定要放在tape里面，不然无法记录，第二部分表示求y2对w的偏导，x*w对w偏导为x，值为2。

在这里插入图片描述

Persistent GradientTape

上面的方法只能求解一次，就会自动释放相关资源，第四部分再次调用gradient会报错。

如果需要调用两次，设置persistent=True。

在这里插入图片描述

高阶知识：

$2^{nd} - order$ (二阶梯度)

y = xw + b

$\frac{\delta y}{\delta w} = x$

二阶梯度： $\frac{\delta^2 y}{\delta w^2} = \frac{\delta y'}{\delta w} = \frac{\delta x}{\delta w} = None$

具体实现：

首先得到 $\frac{\delta y}{\delta w}$ 、 $\frac{\delta y}{\delta b}$ 。后面相当于再次对 $\delta w$ 求导。

在这里插入图片描述

实战：

import tensorflow as tf

w = tf.Variable(1.0)
b = tf.Variable(2.0)
x = tf.Variable(3.0)

with tf.GradientTape() as t1:
  with tf.GradientTape() as t2:
    y = x * w + b
  dy_dw, dy_db = t2.gradient(y, [w, b])
d2y_dw2 = t1.gradient(dy_dw, w)

print(dy_dw)
#x -> 3
print(dy_db)
#1 -> 1
print(d2y_dw2)
#None

assert dy_dw.numpy() == 3.0
assert d2y_dw2 is None

常见函数的梯度

Common Functions

在下图中梯度(Derivative)和导数混在一起，对于一维函数，梯度和导数基本上一样，只是梯度有方向，导数没有方向。

在这里插入图片描述

y = xw + b

对于线性函数，y = xw + b，x为输入，y为输出；w和b作为神经网络的参数。

偏微分： $\frac{\delta y}{\delta w} = x$

偏微分： $\frac{\delta y}{\delta b} = 1$

梯度： $\Delta_{(w,b)} = (x,1)$

$y=xw^2 + b^2$

偏微分： $\frac{\delta y}{\delta w} = 2xw$

偏微分： $\frac{\delta y}{\delta b} = 2b$

梯度： $\Delta_{(w,b)} = (2xw,2b)$

$y=xr^w + e^b$

偏微分： $\frac{\delta y}{\delta w} = xe^w$

偏微分： $\frac{\delta y}{\delta b} = e^b$

梯度： $\Delta_{(w,b)} = (xe^w,e^b)$

在这里插入图片描述

$f = [y-(xw+b)]^2$

可以理解为线性感知机的输出和真实的label的均方差。

偏微分： $\frac{\delta f}{\delta w} = 2(y-(xw+b))x$

偏微分： $\frac{\delta f}{\delta b} = 2(y-(xw+b))*1$

梯度： $\Delta = (\,2(y-(xw+b))x\,,\,2(y-(xw+b))\,)$

上面的式子是单层的感知机在使用均方差的loss度量的梯度。这样可以直接更新参数从 $(w_0,b_0) => (\Delta w_0,\Delta b_0)$ 。这个式子对我们求解单层感知机的更新是很方便的。

在这里插入图片描述

$y\log(xw+b)$

偏微分： $\frac{\delta f}{\delta w} = \frac{y}{xw+b}x$

偏微分： $\frac{\delta f}{\delta b} = \frac{y}{xw+b}$

梯度： $\Delta = (\,\frac{y}{xw+b}x\,,\,\frac{y}{xw+b}\,)$

在这里插入图片描述

小明2766

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
深度学习_07_1_随机梯度下降_梯度下降简介&常见函数梯度

07_1_随机梯度下降_梯度下降简介&常见函数梯度Gradient Descent 梯度下降-简介OutlineWhat’s Gradient 什么是gradientWhat does it mean gradient代表了什么意思How to Search 怎么搜索最小值AutoGrad 怎么用TensorFlow搜索What’s Gradient?导数，derivative高中学的导数一般来说是一维的，lim⁡x→valΔy\lim\limits_{x \rightar
复制链接

扫一扫