在价值函数的基础之上,动作价值函数是在状态S下选择动作a然后遵循这个策略的值,下图左边的定义是价值函数,右边是动作价值函数。
在动作价值函数的基础上,原来每个格子的值需要考虑动作的行为(上下左右),这样格子的值被分为4块。
下图是计算动作价值函数的过程,从第一列第二行格子方开始沿着红色路线采取动作最终达到终点,可得到在这个格子下采取向上动作的value为1
在价值函数的基础之上,动作价值函数是在状态S下选择动作a然后遵循这个策略的值,下图左边的定义是价值函数,右边是动作价值函数。
在动作价值函数的基础上,原来每个格子的值需要考虑动作的行为(上下左右),这样格子的值被分为4块。
下图是计算动作价值函数的过程,从第一列第二行格子方开始沿着红色路线采取动作最终达到终点,可得到在这个格子下采取向上动作的value为1