Tensorflow学习笔记(1) 利用函数修饰符@tf.custom_gradients自定义函数梯度

本文介绍了Tensorflow中的@tf.custom_gradients修饰符,用于解决因数值不稳定性导致的梯度计算问题。通过示例代码展示如何自定义函数及其梯度,确保计算机可以准确计算导数。最终,通过一个复合函数的例子,验证了自定义梯度的正确性。
摘要由CSDN通过智能技术生成

在tensorflow v1.12中,新定义了一个修饰符函数tf.custom_gradients,用于封装自定义的函数-导数对。

有时候我们想使用tensorflow去计算一些函数的梯度,但会碰到如下情况

def log1pexp(x):
    e = tf.exp(x)
    return tf.log(1+e)

x = tf.constant(100.)
y = log1pexp(x)
dy = tf.gradients(y,x)

with tf.Session() as sess:
    print(sess.run(dy))

运行这段代码,命令行输出为

[nan]

这是因为数据具有不稳定性(numerical instability)。为了使计算机仍然能够输出这个导数,我们需要给出一个计算机能”hold“住的表达式,这里先上代码,再做解释:

@tf.custom_gradient
def log1pexp(x):
    e = tf.exp(x)
    def grad(dy):
   
# 定义一个类,表示 Critic 网络 class CriticNetwork(object): def __init__(self, sess, state_dim, learning_rate): # 初始化 Critic 网络的一些参数 self.sess = sess self.s_dim = state_dim self.lr_rate = learning_rate # 创建 Critic 网络 self.inputs, self.out = self.create_critic_network() # 获取 Critic 网络中所有的参数 self.network_params = tf.compat.v1.get_collection(tf.compat.v1.GraphKeys.TRAINABLE_VARIABLES, scope='critic') # 定义一个占位符,表示 Critic 网络的输入参数 self.input_network_params = [] for param in self.network_params: self.input_network_params.append(tf.compat.v1.placeholder(tf.float32, shape=param.get_shape())) # 定义一个操作,用于设置 Critic 网络的所有参数 self.set_network_params_op = [] for idx, param in enumerate(self.input_network_params): self.set_network_params_op.append(self.network_params[idx].assign(param)) # 定义一个占位符,表示 Critic 网络的目标输出 self.td_target = tf.compat.v1.placeholder(tf.float32, [None, 1]) # 计算 Critic 网络的 Temporal Difference self.td = tf.subtract(self.td_target, self.out) # 定义 Critic 网络的损失函数,使用均方误差 self.loss = tflearn.mean_square(self.td_target, self.out) # 计算 Critic 网络的梯度 self.critic_gradients = tf.gradients(self.loss, self.network_params) # 定义 Critic 网络的优化器 self.optimize = tf.compat.v1.train.RMSPropOptimizer(self.lr_rate).apply_gradients(zip(self.critic_gradients, self.network_params))
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值