python实现Q Learning强化学习(完整代码)

完整代码:https://download.csdn.net/download/pythonyanyan/87390631

由于现实世界中并不能获取全部的state以及全部的action,因此值迭代方法在很多问题上还是会有局限性。这时用到的就是Q Learning方法了,对于上述两个问题他会这样解决:

  1. 计算的时候不会遍历所有的格子,只管当前状态,当前格子的reward 值

  1. 不会计算所有action的reward,每次行动时,只选取一个action,只计算这一个action的reward

这样的规则也说明了需要大量的尝试,才能学习出比较好的结果。Q Learning的公式如下:

整理后得到

从左到右拆解开来分析

表示的是在s时执行a的reward值之和,包括了经验reward值和表示的是经验reward,即学习率*之前学习到的执行该action的reward。可以看到学习速率α越大,保留之前训练的效果就

就是新的reward值了,下面逐步拆解。是计算下一个state'中最大的reward值,这个称之为 “记忆奖励”。因为在之前某次到达state'的时候,保存了四个方向(a') 的reward值,通过“回忆”,想起来自己之前在state'上能收获的最大好处,就可以直接影响在当前state时reward的计算。

是用来增加or减少state'的影响的,越大,智能体就会越重视以往经验,越小,就只重视眼前利益(R)。

R是执行了action后的reward,比如在终点处执行exit,获得+1/-1的 reward。

编写代码的时候,需要在update函数中体现上述思想。接下来分别实现函数

getQValue(state,action)函数

返回Q Value的值,直接return就可以,代码如下

defgetQValue(self,state,action):returnself.Q[(state,action)]

computeValueFromQValues(state)函数

该函数是通过QValue返回最大的reward,因此需要遍历四个reward,最终得到最大值

defcomputeValueFromQValues(self,state):actions=self.getLegalActions(state)iflen(actions)==0:return0# 保存成列表values=[self.getQValue(state,action)foractioninactions]returnmax(values)

computeActionFromQValues(state)函数 和上一个函数一样,只不过这里返回的是最大Action

defcomputeActionFromQValues(self,state):actions=self.getLegalActions(state)iflen(actions)==0:return0max_action=float('-inf')best_action=actions[0]# 记录最大actionforactioninactions:ifmax_action<self.getQValue(state,action):max_action=self.getQValue(state,action)best_action=actionreturnbest_action

getAction(state)函数

此时要返回的action应该是最大的action

defgetAction(self,state):legalActions=self.getLegalActions(state)action=Noneiflen(legalActions)==0:returnactionreturnself.computeActionFromQValues(state)

update(state, action, nextState, reward)`函数

这里就是要通过公式计算,更新Q Value值

defupdate(self,state,action,nextState,reward):sample=reward+self.discount*/self.getValue(nextState)mid=self.Q[(state,action)]# 公式self.Q[(state,action)]=(1-self.alpha)*/self.getQValue(state,action)+self.alpha*sample

搭建完毕后,就可以计算每一个action的reward了:

按照相同路径走4次后的学习结果

Question7EpsilonGreedy	

上述的算法看上去可以在每次动作都选择到最佳的动作,但在使用上述算法让智能体去学习Grid World的时候,会遇到下图的问题

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

程序员奇奇

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值