强化学习中基于值与基于策略算法的思想异同点:
相同点:
都是为了找到正确的策略,以便能够获得最大的奖励
不同点:
Policy gradient 不通过奖励值,直接输出行为。可以在一个连续的区间内选择动作。其没有误差来参与反向传递,而是通过reward来增加下一次选中该动作的概率 (如果该动作是积极的话)
而 基于值的算法 比如 Q-learning 会在无穷多个动作中计算价值,选择行为的话,吃不消。由于Q函数能够得到哪个行为是在某一状态下执行的最佳行为,因此,使用 Q 函数来寻找最优策略。