1. value-based和policy gradient的不同:
a. 输出不同: value-based方法 (Q learning, Sara)输出的是 p ( s ) p(s) p(s)或 p ( s , a ) p(s,a) p(s,a); Policy gradient输出的 p ( a ∣ s ) p(a|s)
强化学习3-策略梯度(policy gradient)
最新推荐文章于 2024-06-30 10:57:41 发布
本文探讨了强化学习中的策略梯度方法,对比了它与value-based方法的区别,如输出形式与选取行动的方式。策略梯度直接输出条件概率p(a|s),并在整个episode结束后更新,而Actor-Critic方法是其一例。文中引用多个参考资料以深入讲解。
摘要由CSDN通过智能技术生成