强化学习
HeegerGAO
智能机器人硕士
展开
-
SARSA和Q Learning的区别理解
saras是on-policy学习,q-learning是off-policy学习。sarsa的学习比较保守稳健,每一个episode和每个episode的每个step都会执行episilon-greedy探索;q-learning则倾向于利用经验的累积,学习到最优策略。在悬崖行走曲线上,q-learning方法是optimal的,但会有风险,sarsa方法是安全的,但学习的episode曲线也被拉长了。...原创 2020-09-26 10:14:25 · 883 阅读 · 0 评论 -
强化学习对于infinte horizon的方案
无非两种方案:完成这次交互,也就是超过这一次规定的迭代步数直到done,这样做会使每一次迭代更新时的交互step不同,比较不同算法在相同的step性能如何时略显不公平不完成这次交互,这样会使最后一步的step采用gae对adv估值存在近似。在John Schulman’s 程序中,对V估值采用这种方式: V(s_t+1) = {0 if s_t is terminal {v_s_{t+1} if s_t not terminal and t原创 2020-09-02 20:31:14 · 468 阅读 · 0 评论