特点:
首先,该算法跳出传统value-based寻找最优策略的方法,取而代之的是一种通过策略迭代直接寻找最优策略的方法。
其次,其可以进行在连续状态空间进行迭代,跳出Q-Learing所谓的利用Q表去计算每个状态-动作对的价值。
第三他跳出了之前确定性策略的局限,选取随机策略迭代,
具体详情请点击
太懒了,有时间一定好好整理~
首先,该算法跳出传统value-based寻找最优策略的方法,取而代之的是一种通过策略迭代直接寻找最优策略的方法。
其次,其可以进行在连续状态空间进行迭代,跳出Q-Learing所谓的利用Q表去计算每个状态-动作对的价值。
第三他跳出了之前确定性策略的局限,选取随机策略迭代,
具体详情请点击
太懒了,有时间一定好好整理~