【强化学习】使用TDLearning来解决出租车问题

问题描述:

为了演示这个问题,我们假设代理是出租车程序。有四个地点,代理必须在一个地点接一名乘客,然后把他们放在另一个地点。成功落车奖励+20分,每行驶一步要花费-1分。代理也可能因为,非法地点载客和下客,而失去10分奖励。代理的目标是,在短时间内,学会在正确地点上客和下客,而不添加非法乘客。

环境中的(R,G,Y,B)代表的是不同的上下车地点,小矩形代表的是出租车

        

解决思路:

1.无策略学习算法:Qlearing

算法步骤

1. 首先我们初始化Qfunction为任意值

   First, we initialize the Q function to some arbitrary values

2.从状态中选择行动的方法是贪心策略,然后进入到下一状态

   We take an action from a state using epsilon-greedy policy ( \epsilon >0) and move it to the new state

3.更新q值

   We update the Q value of a previous state by following the update rule:

        

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值