目录
1.算法概述
Q-Learning它是强化学习中的一种 values-based 算法,是以QTable表格形式体现,在学习中遇到的任何操作存入QTable中,根据之前的学习选择当前最优操作,也可以根据设置的e_greedy机率随机选择。
Q-Learning的QTable标签更新公式:
Q-Learning的计算步骤:
1.判断在当前位置可以有几种操作;
2.根据当前位置允许的操作选择一个操作;
3.根据选择的操作进行奖赏;
4.修改当前行为的本次操作权重;
2.仿真效果
matlab2022a仿真结果如下: