首先简述强化学习中的价值迭代: 对于马尔科夫过程: 我们考虑在状态s,动作a会产生确定性下一状态,折扣为1的情况: 将我们考虑的优化目标设定为到达目标值的时间/距离最短,例如对于网格问题,可以迭代得到每一格的价值: 现在我们换一种思路,将每一步的奖励变为代价,也就是上图中的所有价值变为代价,数值也由负数变为