立即学习:https://edu.csdn.net/course/play/4916/88702?utm_source=blogtoedu
Q-learning迭代计算实例
Rs_a表示即时奖励
1, 设计奖惩矩阵
从一个状态开始,直到它达到终止状态,称为1个episode.
实例计算:
因为最开始Q初始化的都是0,
所以一开始, 对于下一个动作的奖励计算时,使用的是max{0,0,0}
立即学习:https://edu.csdn.net/course/play/4916/88702?utm_source=blogtoedu
Q-learning迭代计算实例
Rs_a表示即时奖励
1, 设计奖惩矩阵
从一个状态开始,直到它达到终止状态,称为1个episode.
实例计算:
因为最开始Q初始化的都是0,
所以一开始, 对于下一个动作的奖励计算时,使用的是max{0,0,0}