这一讲主要在讲policy gradient,
注意,教授经常提到的horizon,就是 1 1 − γ 1\over1-\gamma 1−γ1 , 就是 ∑ t γ t ( t s t a r t s f r o m 0 ) \sum_t\gamma^t~~(t~starts~from~0) ∑tγt (t starts from 0),这个求和的结果是 1 1 − γ 1\over1-\gamma 1−γ1 。(我还不是很明白这个是在干嘛……)
说句实话好了,这一讲整个我就处于懵逼状态了,什么玩意啊,一直在推导推导,我的个天,怎么这里也有泰勒级数还有拉格朗日,简直是所有的噩梦全都袭来了啊。
最后的review保存一下好了