（一）预备知识 -- 2 TensorFlow 求梯度/导数

最新推荐文章于 2022-07-25 13:21:32 发布

Fiona-Dong

最新推荐文章于 2022-07-25 13:21:32 发布

阅读量964

点赞数

分类专栏：动手学深度学习-TF2.0（读书笔记）文章标签： tensorflow 深度学习

原文链接：https://medium.com/analytics-vidhya/tf-gradienttape-explained-for-keras-users-cc3f06276f22

版权

动手学深度学习-TF2.0（读书笔记）专栏收录该内容

45 篇文章 13 订阅

订阅专栏

2. TensorFlow 求梯度/导数

TensorFlow 为自动微分提供了 tf.GradientTape API ，即：
根据某个函数的输入变量来计算它的导数。

原理：
1）Tensorflow 会把 ‘tf.GradientTape’ 上下文中执行的所有操作都记录在一个磁带上 (“tape”)。
2）然后，基于这个磁带和每次操作产生的导数，用反向微分法（“reverse mode differentiation”）来计算这些被“记录在案”的函数的导数。

2.1 常量（constant）

x = tf.constant(3.0)
with tf.GradientTape() as tape:
    # track constants
    tape.watch(x)
    y = x*x
dy_dx = tape.gradient(y, x)
dy_dx.numpy()

6.0

tape.watch(variable) 作用：对指定变量/常量进行追踪。

GradientTape 默认不对常量进行追踪：

x = tf.constant(3.0)
with tf.GradientTape() as tape:
    y = x*x
dy_dx = tape.gradient(y, x)
print(dy_dx)

None

2.2 变量（variable）

2.2.1 trainable=True

GradientTape 支持对 trainable 变量进行自动追踪：

x = tf.Variable(3.0, trainable=True)
with tf.GradientTape() as tape:
    y = x*x
dy_dx = tape.gradient(y, x)
dy_dx.numpy()

6.0

2.2.2 watch_accessed_variables=False

GradientTape 支持对所有 trainable 变量中的一部分进行自动追踪。

x = tf.Variable(3.0, trainable=True)
m = tf.Variable(2.0, trainable=True)
with tf.GradientTape(watch_accessed_variables=False) as tape:
    tape.watch(x)
    y = x*x
    n = m*m
print(tape.gradient(y, x).numpy())

6.0

x = tf.Variable(3.0, trainable=True)
m = tf.Variable(2.0, trainable=True)
with tf.GradientTape(watch_accessed_variables=False) as tape:
    tape.watch(x)
    y = x*x
    n = m*m
print(tape.gradient(n, m))

None

如上所示，x 和 m 均为 trainable 变量，若仅对 x 进行追踪，
则能求得 y 对 x 的导数值为6.0，而 n 对 m 的导数返回None。

2.2.3 高阶导数

高阶导数的求取，可以通过 GradientTape 的嵌套来实现。

x = tf.Variable(3.0, trainable=True)
with tf.GradientTape() as tape_2:
    with tf.GradientTape() as tape_1:
        y = x**3
    g_1 = tape_1.gradient(y, x)
g_2 = tape_2.gradient(g_1, x)
g_2.numpy()

18.0

其中，调用 GradientTape.gradient() 方法时，默认立即释放 GradientTape 占用的资源。因此，默认不支持连续两个 GradientTape.gradient() 的调用。

具体执行报错如下：

x = tf.Variable(3.0, trainable=True)
with tf.GradientTape() as tape:
    y = x**3
g_1 = tape.gradient(y, x)
g_2 = tape.gradient(g_1, x)
g_2

RuntimeError: GradientTape.gradient can only be called once on non-persistent tapes.

2.2.4 persistent=True

对比2.2.3，若需要支持连续两个 GradientTape.gradient() 的调用，可以通过 GradientTape 的参数配置来实现：

x = tf.Variable(3.0, trainable=True)
with tf.GradientTape(persistent=True) as tape:
    tape.watch(x)
    y = x*x
    z = y*y
print(tape.gradient(y, x).numpy())
print(tape.gradient(z, x).numpy())

6.0
108.0

2.2.5 stop_recording()

作用：暂时停止 tape 的记录。
用法：

x = tf.Variable(3.0, trainable=True)
m = tf.Variable(2.0, trainable=True)
with tf.GradientTape(persistent=True) as tape:
    y = x*x
    with tape.stop_recording():
        print(tape.gradient(y, x).numpy())
        
    n = m*m
    with tape.stop_recording():
        print(tape.gradient(n, m).numpy())

6.0
4.0

优点：增加代码可读性，提高计算速度。

2.2.6 python 控制流

TensorFlow 支持对 python 控制流求梯度（导数）。

def f(x, y):
    output = 1.0
    for i in range(y):
        if i > 1 and i < 5:
            output = tf.multiply(output, x)
    return output

def grad(x, y):
    with tf.GradientTape() as t:
        t.watch(x)
        out = f(x, y)
    return t.gradient(out, x)

x = tf.convert_to_tensor(2.0)
assert grad(x, 6).numpy() == 12.0

如上，当y=6.0时，out=x**3，对x求导并代入x=2.0，得12.0。

参考

tf.GradientTape Explained for Keras Users
TensorFlow 官方教程：自动微分和梯度带
 《动手学深度学习》(TF2.0版)

Fiona-Dong

关注

0
点赞
踩
6

收藏

觉得还不错? 一键收藏
1
评论
（一）预备知识 -- 2 TensorFlow 求梯度/导数

2. TensorFlow 求梯度/导数TensorFlow 为自动微分提供了 tf.GradientTape API ，即：根据某个函数的输入变量来计算它的导数。原理：1）Tensorflow 会把 ‘tf.GradientTape’ 上下文中执行的所有操作都记录在一个磁带上 (“tape”)。2）然后，基于这个磁带和每次操作产生的导数，用反向微分法（“reverse mode dif...
复制链接

扫一扫

专栏目录