policy gradient 在pendulum环境中的实现
这个policy gradient代码是在tensorflow的框架中完成的,并且是基于openai gym 中的pendulum环境。此代码有借鉴莫凡老师的相关代码。
有必要记录的一点是关于 self.sample_op = tf.squeeze(self.pi.sample(1)), 当没使用 tf.squueze 时,总会出现关于state shape的报错。尽管此时state已经是(1,3)的shape,但是会报错说是(3,1,1)的shape。要记得使用tf.squeeze。
import ten
原创
2021-02-08 00:43:05 ·
437 阅读 ·
2 评论