一、什么是强化学习
对模型的输出给出奖励或惩罚,不给出正确输出。
二、火星探测器实例
找奖励高的
三、回报
用奖励和折扣系数计算回报
引入折扣因子:一般为0.9或0.99等小于1的数。
不同位置出发向左向右计算奖励,得到第三个表格(在不同位置如何选择)。
四、策略函数
我们需要一个策略函数Π(s)告诉我们在这种状态下如何行动。
五、状态动作值函数(state action value function)
状态动作值函数为Q(s,a)。他返回在s状态下执行a操作后经过最优行为得到的回报(return)。也就是在s状态下应该如何操作并会得到什么结果。
同时可得策略函数Π(s)=a。
六、贝尔曼方程
计算示例
贝尔曼方程用运动态规划和递归思想