一、基本概念
Return:
我们希望return越大越好
动作价值函数:与具体的策略π有关
最优动作价值函数:
能够去掉动作价值函数中的π:使用最好的策略π,使Qπ最大化
意义:Q*可以用来评价当前状态下不同动作的好坏
状态价值函数:
意义:评价当前状态好坏,比如下围棋根据棋盘来判断输赢情况
总结:
强化学习的目标:学习策略π或者Q*函数
一、基本概念
Return:
我们希望return越大越好
动作价值函数:与具体的策略π有关
最优动作价值函数:
能够去掉动作价值函数中的π:使用最好的策略π,使Qπ最大化
意义:Q*可以用来评价当前状态下不同动作的好坏
状态价值函数:
意义:评价当前状态好坏,比如下围棋根据棋盘来判断输赢情况
总结:
强化学习的目标:学习策略π或者Q*函数