Policy-based reinforcement learning
本笔记整理自 (作者: Shusen Wang):
https://www.bilibili.com/video/BV1rv41167yx?from=search&seid=18272266068137655483&spm_id_from=333.337.0.0
Policy function approximation
注意这里的符号
- π ( a ∣ s ) \pi(a|s) π(a∣s): 指的是policy分布,是精确的分布,只是我们不知道具体形式
- π ( a ∣ s , θ ) \pi(a|s, \theta) π(a∣s,θ): 指的是用一个神经网络去近似 π ( a ∣ s ) \pi(a|s) π(a∣s),其中 θ \theta θ是神经网络的参数。
State-value function approximation