强化学习之Q学习与SARSA

**

Q学习路径规划与SARSA法路径规划

**

Q学习与SARSA学习简介

强化学习的历史可以用两条各自独立但丰富多彩的主线来追溯。。一条主线聚焦
于研究最优化控制,以及使用价值函数动态规划等算法来寻找问题的解决方案。另
一条主线源于研究动物学习心理学时产生的试错学习,对它的研究也诞生了早期人
工智能的其他领域,其一直是强化学习的主要研究内容。这两条主线在很长时间里
是相对独立发展的,如今的强化学习理论主要是第二条主线的延续。如今的强化学
习主要研究这样一类问题:具有一定思考和行为能力的个体(Agent)在与其所处的
环境(Environment)进行交互的过程中,通过学习策略达到奖励最大化或实现特定
的目标。其中,“个体”处在“环境”中,在某时刻可以有一个对自身的认识,这可
以表示成个体自身在该时刻的状态(State)。个体在某时刻可以向环境实施一个行为
(Action),环境会因为这一行为做出相应的改变并给予个体一定形式的反馈,个体接
收到这个反馈后可以建立“自身状态”“所施行为”及“所得反馈”之间的联系,作
为自身记忆的一部分给后续的决策提供参考。个体在不同状态下向环境施加的各种
不同行为则构成了个体与环境交互的“策略”(Policy)。个体策略的构建与个体的目
的密切相关。环境给予个体一个表征当前环境对个体奖惩程度的数值,我们一般称之
为“奖励”(Reward)。个体构建策略的目的就是要争取通过与环境的交互而获得尽
可能多的累积奖励值。强化学习过程可用 3.1来说明。
在这里插入图片描述
强化学习可以分为有模型强化学习和免模型强化学习,而Q学习与SARSA就是著名的免模型方法,其内容十分相似,只不过Q学习为异策略算法 ,SARSA为同策略算法。

Q学习&SARSA学习

下面分别介绍同策略的 TD 学习(SARSA)和异策略的TD 学习(Q learning),SARSA 是一个同策略算法,因为伪代码中评估(第六行),执行(第五行)的均为 ϵ 贪心策略。Qlearning 则是异策略算法,伪代码中评估(第六行)的是原始策略,执行(第四行)的是 ϵ 贪心策略。因为两个算法的相似性,下面仅列出 Q 学习路径规划的伪代码。可以看到使用 Q 学习进行路径规划即通过与环境交互得到当前环境下使得累计奖励最大的 Q 函数,通过最大化 Q 值函数选取路径点。Q 学习的核心为其算法的更新公式即
在这里插入图片描述

其中 x′ 是前一次在状态 x 执行动作 a 转移到的状态,a′ 是策略 π 在 x′ 上选择的动作;α 为学习率,其值越大 Q 值收敛越快,但很可能会导致路径规划效果较差;γ 为折扣因子,表示智能体的“远见程度”。r 是指智能体执行动作 a 后所获得的奖励,可以说奖励函数的设计是强化学习任务的核心之一。根据 Q 学习更新公式,可以证明,这里不证,在学习率满足 0-1 之间,Q 学习可以保证在无模型条件下收敛。所用算法伪代码如下

伪代码

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

算法实现

具体实现细节请转GitHub,链接: https://github.com/Say-Hello2y/reforcementLearningPathplanner.
需要安装的python库
python gym
numpy
matplotlib
实验所用python版本3.8(python3.6以上都能正常运行)。算法主要包括两个文件gridword.py与qlearning.py&sarsa.py。 其中gridword.py文件创建了一个基本的栅格地图,环境给智能体的奖励也由其给出,主要参考了 https://github.com/qqiang00/Reinforce/blob/master/reinforce/gridworld.py的工作,并加了一点改进。 qlearning.py文件与sarsa.py文件 则给出了具体的算法以及可视化结果。

实验结果

在这里插入图片描述
在这里插入图片描述
SARSA路径规划结果如下:
在这里插入图片描述
在这里插入图片描述

  • 0
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值