DRL(六)——高级策略梯度

这一讲主要在讲policy gradient,

注意,教授经常提到的horizon,就是 1 1 − γ 1\over1-\gamma 1γ1 , 就是 ∑ t γ t    ( t   s t a r t s   f r o m   0 ) \sum_t\gamma^t~~(t~starts~from~0) tγt  (t starts from 0),这个求和的结果是 1 1 − γ 1\over1-\gamma 1γ1 。(我还不是很明白这个是在干嘛……)

说句实话好了,这一讲整个我就处于懵逼状态了,什么玩意啊,一直在推导推导,我的个天,怎么这里也有泰勒级数还有拉格朗日,简直是所有的噩梦全都袭来了啊。

最后的review保存一下好了
在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值