【强化学习】基于Qlearning强化学习的机器人栅格地图障碍物规避路线规划仿真,带GUI界面

Simuworld

已于 2023-08-27 15:46:12 修改

阅读量449

点赞数

分类专栏： MATLAB较复杂算法仿真案例文章标签：机器人 Qlearning强化学习栅格地图障碍物规避路线规划

于 2023-01-17 19:33:07 首次发布

本文链接：https://blog.csdn.net/Simuworld/article/details/128719862

版权

MATLAB较复杂算法仿真案例专栏收录该内容

74 篇文章 55 订阅 ¥59.90 ¥99.00

订阅专栏

1.算法概述

2.仿真效果

3.MATLAB仿真源码

1.算法概述

①强化学习是做出最佳决策的科学。它可以帮助我们制定活的物种所表现出的奖励动机行为。比方说，你想让一个孩子坐下来学习考试。要做到这一点非常困难，但是如果每次完成一章/主题时都给他一块巧克力，他就会明白，如果他继续学习，他会得到更多的巧克力棒。所以他会有一些学习考试的动机。
②孩子代表着Agent代理。奖励制度和考试代表了Environment环境。今天的题目是类似于强化学习的States状态。所以，孩子必须决定哪些话题更重要（即计算每种行为的价值）。这将是我们的工作的 Value-Function价值方程。所以，每次他从一个国家到另一个国家旅行时，他都会得到Reward奖励，他用来在时间内完成主题的方法就是我们的Policy决策。

假设我们的行为准则已经学习好了, 现在我们处于状态s1, 我在写作业, 我有两个行为 a1, a2, 分别是看电视和写作业, 根据我的经验, 在这种 s1 状态下, a2 写作业带来的潜在奖励要比 a1 看电视高, 这里的潜在奖励我们可以用一个有关于 s 和 a 的 Q 表格代替, 在我的记忆Q表格中, Q(s1, a1)=-2 要小于 Q(s1, a2)=1, 所以我们判断要选择 a2 作为下一个行为. 现在我们的状态更新成 s2 , 我们还是有两个同样的选择, 重复上面的过程, 在行为准则Q 表中寻找 Q(s2, a1) Q(s2, a2) 的值, 并比较他们的大小, 选取较大的一个. 接着根据 a2 我们到达 s3 并在此重复上面的决策过程.

了解本专栏

Simuworld

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
打赏
0
评论
【强化学习】基于Qlearning强化学习的机器人栅格地图障碍物规避路线规划仿真,带GUI界面

①强化学习是做出最佳决策的科学。它可以帮助我们制定活的物种所表现出的奖励动机行为。比方说，你想让一个孩子坐下来学习考试。要做到这一点非常困难，但是如果每次完成一章/主题时都给他一块巧克力，他就会明白，如果他继续学习，他会得到更多的巧克力棒。所以他会有一些学习考试的动机。②孩子代表着Agent代理。奖励制度和考试代表了Environment环境。今天的题目是类似于强化学习的States状态。所以，孩子必须决定哪些话题更重要（即计算每种行为的价值）。
复制链接

扫一扫