问题描述:
为了演示这个问题,我们假设代理是出租车程序。有四个地点,代理必须在一个地点接一名乘客,然后把他们放在另一个地点。成功落车奖励+20分,每行驶一步要花费-1分。代理也可能因为,非法地点载客和下客,而失去10分奖励。代理的目标是,在短时间内,学会在正确地点上客和下客,而不添加非法乘客。
环境中的(R,G,Y,B)代表的是不同的上下车地点,小矩形代表的是出租车
解决思路:
1.无策略学习算法:Qlearing
算法步骤
1. 首先我们初始化Qfunction为任意值
First, we initialize the Q function to some arbitrary values
2.从状态中选择行动的方法是贪心策略,然后进入到下一状态
We take an action from a state using epsilon-greedy policy (
) and move it to the new state
3.更新q值
We update the Q value of a previous state by following the update rule: