强化学习
风起猿涌
这个作者很懒,什么都没留下…
展开
-
【强化学习】DDPG 算法实现案例
问题描述与Demo介绍完整代码:如果觉得不错,麻烦点颗星哦!1.Demo介绍在该demo中,我们将利用DDPG算法,使一个机械臂学会自己变换角度去抓“方块”,如下图,机械臂从最开始完全不知道如何去捕捉方块,到最后,每次都能精准的抓住方块。2.算法介绍其实理解 Deep Deterministic Policy Gradient (DDPG)最快的方法就是讲其分解开看:Deep Det...原创 2019-06-25 16:37:21 · 11761 阅读 · 0 评论 -
【强化学习】Policy Gradient 算法实现案例
【强化学习】Policy Gradient算法详解1.算法思想之前的文章已经介绍了Q-Learning的相关知识及其实例:【强化学习】Q-Learning 迷宫算法案例Q-Learning 是一个基于价值value的方法,通过计算动作得分来决策的,它在确定了价值函数的基础上采用某种策略(贪婪-epslion)的方法去选取动作。2.项目介绍3.算法实现...原创 2019-06-12 10:45:07 · 2805 阅读 · 0 评论 -
【强化学习】Q-Learning 迷宫算法案例
问题描述与项目流程1.问题描述在该项目中,你将使用强化学习算法(本文使用的Q-Learning),实现一个自动走迷宫的机器人。如上图所示,机器人初始位置在地图左上角。在我们的迷宫中,有墙壁(黑色方块)、炸弹(黄色圆块)及终点(绿色方块)。机器人要尽可能避开陷阱,并且拿到黄金后,以最少的步子到达终点。机器人可执行的动作包括:向左走 L 、向右走 R 、向上走 U 、向下走 D 。执行不...原创 2019-05-29 17:02:15 · 11537 阅读 · 18 评论