Trpo问题
1.TRPO和PPO系列,对于奖励部分的评估是使用的Q网络还是使用的蒙特卡洛方法
目前看,两种方法都是可以的,当然用Q网络效果更好,但是这样就应该把这俩归到AC架构中去了(不知道对不对),其中Open AI的spinning up教程中使用的是Q网络,而levine的课里使用的还是蒙特卡洛方法
2.TRPO相对于传统的PG的提升
对于步长进行了限制,使用KL散度来进行约束,使得每步都有好的回应(事事有回应),而且使用重要性采样,使用旧策略来代替新策略
spinning up版本
![preview](https://i-blog.csdnimg.cn/blog_migrate/1dcc983e4f37da1ddb0ab4e5e0ac5991.png)
Levine版本
![img](https://i-blog.csdnimg.cn/blog_migrate/6c345763a67adaad8d0f6f895e10d393.jpeg)
1616334790481)]