tensorflow的computer_gradients()和tf.gradients()函数

函数原型:
computer_gradients(loss,val_list)

  • loss:损失函数,也即需要被优化的tensor
  • val_list:需要求梯度的变量列表

简单示例:

w = tf.Variable(initial_value=10., dtype='float32')
y = w*w + 2

opt = tf.train.GradientDescentOptimizer(0.1)
grad = opt.compute_gradients(y, [w])
grad1 = tf.gradients(y, [w])
with tf.Session() as sess:
    sess.run(tf.global_variables_initializer())
    print(sess.run(grad))
    print(sess.run(grad1))

结果:

[(20.0, 10.0)]
[20.0]

分析:
y=w^2 + 2 ,则y’=2w,w的初始值为10,因此y’(10)=20
所以computer_gradients()函数返回的元组的第一个值表示y对w求导数的结果,第二个值表示w的值
而tf.gradients()则只会返回计算得到的梯度,而不会返回对应的variable。

# 定义一个类,表示 Critic 网络 class CriticNetwork(object): def __init__(self, sess, state_dim, learning_rate): # 初始化 Critic 网络的一些参数 self.sess = sess self.s_dim = state_dim self.lr_rate = learning_rate # 创建 Critic 网络 self.inputs, self.out = self.create_critic_network() # 获取 Critic 网络中所有的参数 self.network_params = tf.compat.v1.get_collection(tf.compat.v1.GraphKeys.TRAINABLE_VARIABLES, scope='critic') # 定义一个占位符,表示 Critic 网络的输入参数 self.input_network_params = [] for param in self.network_params: self.input_network_params.append(tf.compat.v1.placeholder(tf.float32, shape=param.get_shape())) # 定义一个操作,用于设置 Critic 网络的所有参数 self.set_network_params_op = [] for idx, param in enumerate(self.input_network_params): self.set_network_params_op.append(self.network_params[idx].assign(param)) # 定义一个占位符,表示 Critic 网络的目标输出 self.td_target = tf.compat.v1.placeholder(tf.float32, [None, 1]) # 计算 Critic 网络的 Temporal Difference self.td = tf.subtract(self.td_target, self.out) # 定义 Critic 网络的损失函数,使用均方误差 self.loss = tflearn.mean_square(self.td_target, self.out) # 计算 Critic 网络的梯度 self.critic_gradients = tf.gradients(self.loss, self.network_params) # 定义 Critic 网络的优化器 self.optimize = tf.compat.v1.train.RMSPropOptimizer(self.lr_rate).apply_gradients(zip(self.critic_gradients, self.network_params))
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值