![](https://img-blog.csdnimg.cn/20201014180756780.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
RL
文章平均质量分 60
暗里花儿
这个作者很懒,什么都没留下…
展开
-
强化学习记录——PolicyGradient跑CartPole-v0
代码cr:MorvanZhou (Morvan) · GitHub一、CartPole-v0环境介绍:一根杆子由一个非驱动的关节连接到小车上,小车沿着无摩擦的轨道移动。这个系统是通过对小车施加+1或-1的力来控制的。钟摆开始直立,目的是防止它倒下。柱子保持直立的每一步将获得+1奖励。当电线杆与垂直的距离超过15度,或者车与中心的距离超过2.4个单位时,就结束了。环境脚本:gym/gym/envs/classic_control at master · openai/gym · GitHu.原创 2021-10-07 12:46:38 · 810 阅读 · 0 评论 -
强化学习记录——各类算法
一、Q-Learning(Q:状态动作价值)1.value-based、off-policy2.算法思想:将State与Action构建成一张Q-table来存储Q值,然后根据Q值来选取能够获得最大的收益的动作。3.更新公式:Q表格更新:重复执行多次episode,直至:Q矩阵达到收敛或无变化或变化很小、或平稳分布。二、Sarsa(该算法由于更新一次动作值函数需要用到 5 个量(s,a,r,s′,a′),所以被称为 Sarsa 算法)1.value based、on-p.原创 2021-10-06 21:15:45 · 239 阅读 · 0 评论 -
强化学习记录——gym中各种环境信息查看
提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录前言 一、pandas是什么? 二、使用步骤 1.引入库 2.读入数据 总结前言提示:这里可以添加本文要记录的大概内容:例如:随着人工智能的不断发展,机器学习这门技术也越来越重要,很多人都开启了学习机器学习,本文就介绍了机器学习的基础内容。提示:以下是本篇文章正文内容,下面案例可供参考一、pandas是什么?示例:pandas 是基于NumPy 的一种工具,该工具是为了解决数据分原创 2021-10-06 20:26:14 · 6095 阅读 · 0 评论 -
强化学习记录——DQN跑Pendulum-v0
环境介绍cr:百度代码cr:莫烦内容整理+代码注释及部分修改:me一、Pendulum-v0环境介绍:钟摆以随机位置开始,目标是将其向上摆动,使其保持直立。https://github.com/openai/gym/tree/master/gym/envs/classic_control二、Pendulum-v0.py代码import gym#导入gym库import numpy as np#导入numpy模块from RL_brain import De..原创 2021-10-06 19:47:36 · 2059 阅读 · 1 评论