Policy Gradient连续动作 tf.distributions.Normal log_prob = self.normal_dist.log_prob(self.a) 的解释

记录 专栏收录该内容
6 篇文章 0 订阅

self.normal_dist = tf.distributions.Normal(self.mu, self.sigma) 根据Mu和sigma求出一个正太分布,这个是随机的正态分布

我们的目的是要用这个随机的去逼近真正的选择动作action的正太分布

所以
log_prob = self.normal_dist.log_prob(self.a)
log_prob 是a在前面那个正太分布的概率的log ,我们相信a是对的 ,那么我们要求的正态分布曲线中点应该在a这里,所以最大化正太分布的概率的log, 改变mu,sigma得出一条中心点更加在a的正太分布。

前面我们假设a是对的但是a不一定是对的 所以后面有个
self.exp_v = log_prob * self.td_error

  • 6
    点赞
  • 10
    评论
  • 14
    收藏
  • 一键三连
    一键三连
  • 扫一扫,分享海报

©️2021 CSDN 皮肤主题: 大白 设计师:CSDN官方博客 返回首页
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、C币套餐、付费专栏及课程。

余额充值