【强化学习】使用TDLearning来解决出租车问题

danyow-4

已于 2022-01-31 14:19:25 修改

阅读量774

点赞数

文章标签：深度学习人工智能 python

于 2022-01-31 14:18:07 首次发布

本文链接：https://blog.csdn.net/dannnnnnnnnnnn/article/details/122758216

版权

问题描述：

为了演示这个问题，我们假设代理是出租车程序。有四个地点，代理必须在一个地点接一名乘客，然后把他们放在另一个地点。成功落车奖励+20分，每行驶一步要花费-1分。代理也可能因为，非法地点载客和下客，而失去10分奖励。代理的目标是，在短时间内，学会在正确地点上客和下客，而不添加非法乘客。

环境中的(R,G,Y,B)代表的是不同的上下车地点，小矩形代表的是出租车

解决思路：

1.无策略学习算法:Qlearing

算法步骤

1. 首先我们初始化Qfunction为任意值

First, we initialize the Q function to some arbitrary values

2.从状态中选择行动的方法是贪心策略，然后进入到下一状态

We take an action from a state using epsilon-greedy policy ( $\epsilon >0$ ) and move it to the new state

3.更新q值

We update the Q value of a previous state by following the update rule: