![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
强化学习
文章平均质量分 71
南音小榭
小楼昨夜又东风
展开
-
Q-Learning解决二维寻宝问题-sarsa
环境说明二维寻宝问题的环境如下图,探索者能够在5x5的位置中移动,起点位置为绿色方块,宝藏位置为红色方块,每一个位置对应相应的奖励。探索者从起点开始,在上下左右中选择移动方向,直至到达红色区域并获得宝藏。实现流程sarsa与一般方法的不同在于,获取当前状态反馈后,需要进一步获取下一个动作,然后使用当前动作和下一动作对Q表进行更新,算法伪代码如下:实现流程:(1)设置初始状态;(2)选择动作;(3)获取状态反馈;(4)选取下一个动作(5)更新Q表;(6)更新状态;(7)设置终止条件状态动作说明原创 2022-05-20 19:21:05 · 348 阅读 · 0 评论 -
Q-Learning解决最短路径问题
紧接着使用Q-Learning实现了一维环境里的寻宝问题,以及二维世界里的寻宝问题,将实现模板应用于最短路问题。环境说明最短路径问题的环境如下图,起点为A,终点为G,选择最短的路线完成A->G。节点之间的连线表示节点相联通,其上数值表示奖励。若节点之间无法联通,则奖励为-99。Q-Learning流程实现流程:(1)设置初始状态;(2)选择动作;(3)获取状态反馈;(4)更新Q表;(5)更新状态;(6)设置终止条件状态动作说明状态(state):节点编号动作(action):节点编号原创 2022-05-15 14:08:50 · 2330 阅读 · 5 评论 -
Q-Learning解决二维寻宝问题
上回使用Q-Learning实现了一维环境里的寻宝问题,接下来将其扩展到二维环境。与一维环境中仅能左右移动不同,探索者可以在二维环境里进行上下左右四个方向移动。环境说明二维寻宝问题的环境如下图,探索者能够在5x5的位置中移动,起点位置为绿色方块,宝藏位置为红色方块,每一个位置对应相应的奖励。探索者从起点开始,在上下左右中选择移动方向,直至到达红色区域并获得宝藏。Q-Learning流程实现流程:(1)设置初始状态;(2)选择动作;(3)获取状态反馈;(4)更新Q表;(5)更新状态;(6)设置终止条原创 2022-05-15 13:51:11 · 914 阅读 · 0 评论 -
Q-Learning解决一维寻宝问题
前言强烈推荐【莫烦python】的强化学习视频课程,对初学者入门较为友好,最主要是免费。课程连接:https://mofanpy.com/tutorials/machine-learning/reinforcement-learning/在一维寻宝问题中,探索者处于一维世界的起始段(最左端或者任意位置),可以选择向左或者向右移动位置进行探索,直至找到末位的宝藏,获得相应的奖励。探索者相应环境信息如下:状态:位置i(i=0,…,n)且起始位置为0,结束位置为n动作:左,右此外,当探索者位于位置0原创 2022-05-14 23:13:27 · 691 阅读 · 0 评论