tensorflow如何自由处理梯度

最新推荐文章于 2023-07-12 15:29:20 发布

hekkoo

最新推荐文章于 2023-07-12 15:29:20 发布

阅读量1.1w

点赞数 6

分类专栏：机器学习文章标签： tensorflow gradient 梯度

本文链接：https://blog.csdn.net/hekkoo/article/details/53896598

版权

本文介绍了在TensorFlow中遇到无法直接计算梯度的问题，特别是使用step function作为损失函数时。通过学习和理解`minimize`操作的实质，即`compute_gradients`和`apply_gradients`的结合，作者探索了如何先计算梯度，然后对其进行处理，再应用到`apply_gradients`上。在知乎上找到的分布式TensorFlow梯度累积与异步更新的相关代码帮助解决了这个问题。文章详细展示了如何定义和应用自定义梯度处理步骤，包括计算全部梯度、获取可计算梯度的变量、处理所需梯度以及使用holder进行反向传播算法。

摘要由CSDN通过智能技术生成

本文的由来是因为我想使用一个step function作为我的loss function,但是直接使用会导致gradient不能计算，而之前在看tensorflow相关文档时，发现minimize可看作compute_gradients和apply_gradients二者之和，换言之，我们可以先计算gradients，进行处理后，再apply_gradients.
本来一开始打算自己去实现的，但由于tensorflow刚入门，碰了很多壁，最后在知乎上搜索时搜到分布式Tensorflow的梯度累积与异步更新，看到里面的代码，才弄明白该怎么弄
定义
1
gradient_all = optimizer.compute_gradients(loss)
计算全部gradient
2
grads_vars = [v for (g,v) in gradient_all if g is not None]
得到可进行梯度计算的变量
3
gradient = optimizer.compute_gradients(loss, grads_vars)
得到所需梯度
4
grads_holder = [(tf.placeholder(tf.float32, shape=g.get_shape()), v) for (g,v) in gradient]
生成holder
5
train_op = optimizer.apply_gradients(grads_holder)
继续进行BP算法