强化学习
文章平均质量分 52
强化学习笔记
Eliza_Her
妮可妮可妮!
展开
-
强化学习Q-Learning算法实践
Q-Learning算法与Sarsa算法对比相同点:1. 都属于基于价值(value-based)算法的分类,都不需要神经网络。2. 基本公式相同:不同点:1. Sarsa属于on-policy算法,Q-Learning属于off-policy算法。因此Q-Learning能够做出更大胆的决策。On-policy和off-policy区别在于,学习(learn)的时候是否传进next action(A’),如下图。练习背景寻路游戏,学习到达终点而不掉进..原创 2022-02-19 17:08:47 · 3757 阅读 · 1 评论 -
Paddle Paddle 使用过程疑难问题汇总(持续更新)
本文总结了我在使用Paddle Paddle过程中,遇到的各种疑难问题及解决方法。蒟蒻预告:本人很菜,遇到的问题也很基础。1. exe.run(program=fluid.default_main_program(), fetch_list=[y1])报错:[operator < fetch > error]解决方法:加上初始化代码##程序初始化##paddle.enable_static()main_program = paddle.static.Program原创 2022-02-12 20:36:23 · 1342 阅读 · 0 评论 -
强化学习Sarsa算法实践
公式背景寻路游戏,学习到达终点而不掉进黑框的可行路径(但是不一定是最短可行路径)。源码路径:百度PARL包,examples\tutorials\lesson2\sarsa源码分析包含三个文件:gridworld.py、agent.py、train.pyGRIDWORLD提供寻路游戏的虚拟环境Environment,封装了State、Action、Reward和可视化界面,略。AGENT① 根据Q表格选动作class SarsaAgent(object)原创 2022-02-11 22:35:07 · 2696 阅读 · 1 评论 -
PaddlePaddle、Parl、Anaconda环境搭建+踩坑记录
环境搭建参考博客conda安装paddle(win10 cpu 版本)_穿拖鞋的都是大佬-CSDN博客_paddle注意虚拟环境python版本大于等于3.6,最好大于等于3.8# 创建虚拟环境conda create -n paddle_env python=3.8# 查找有哪些环境conda info --envs# 激活activate paddle_env# 安装pip install paddlepaddle==1.6.3pip install parl==1.3.原创 2022-02-10 21:38:43 · 2421 阅读 · 0 评论 -
强化学习导论
本文内容来自百度Paddle Paddle强化学习公开课,如有侵权请联系作者删除。1 RL简介1.1 RL的组成部分1.2 分类1. 基于价值 value-basedSarsa、Q-learning、DQN2. 基于策略 policy-basedPolicy Gradient2 算法库、框架库下图二维码链接(PARL库)3 实战训练平台GYM...原创 2022-02-09 19:56:35 · 332 阅读 · 0 评论 -
强化学习资料推荐
本文内容来自百度Paddle Paddle强化学习公开课,如有侵权请联系作者删除。1 理论:1.1 书籍:《Reinforcement Learning: An Introduction(强化学习导论)》Richard Sutton1.2 视频:英文:2015 David Silver 经典强化学习公开课、UC Berkeley CS285、斯坦福 CS234中文:周博磊、李宏毅2 动手实践:Sarsa、Q-learning、DQN、Policy Gradient、DDP原创 2022-02-08 17:15:46 · 395 阅读 · 0 评论