强化学习
千千Sama
这个作者很懒,什么都没留下…
展开
-
强化学习An introduction书Example4.1代码
RL An introduction第四章Example4.1代码import numpy as npimport pandas as pd# 初始化一些常量# V表初始化时元素必须是float,否则会一直按int型计算V=pd.DataFrame({ 'col1': [0.0, 0.0, 0.0, 0.0], 'col2': [0.0, 0.0, 0.0, 0.0]...原创 2018-12-05 18:19:30 · 238 阅读 · 0 评论 -
DQN实现CartPole详细代码(适合新手)
参考网上的视频教学:https://morvanzhou.github.io/tutorials/machine-learning/reinforcement-learning/4-3-DQN3/DQN虽然简单,但是实现起来其实也没有能够一通到底的通透,有时候回忆一下又要很长时间,所以参照网上的教学视频,把代码加了很多注释记录一下,方便今后快速回忆。注释写的可以说相当详细了,甚至很多是冗余的。...原创 2019-05-05 21:57:43 · 5524 阅读 · 0 评论 -
一篇不错的DQN讲解(转载)
https://blog.csdn.net/weixin_42001089/article/details/81448677原创 2019-05-04 21:37:42 · 773 阅读 · 0 评论 -
tf.GraphKeys
https://tensorflow.google.cn/api_docs/python/tf/GraphKeys?hl=zh-cn用于图形集合的标准名称有以下8个默认标准集合GLOBAL_VARIABLESLOCAL_VARIABLESMODEL_VARIABLESTRAINABLE_VARIABLESSUMMARIESQUEUE_RUNNERSMOVING_AVERAGE_V...原创 2019-05-01 21:00:26 · 383 阅读 · 0 评论 -
强化学习An introduction书Example4.1代码(用策略迭代)
import pandas as pdimport copy# 初始化一些常量V=pd.DataFrame(columns=['col1', 'col2', 'col3', 'col4'], index=['row1','row2','row3','row4'], dtype=float)V.loc['row1']=[0.0, 0.0, 0.0, 0.0]V.loc['row2']=[...原创 2018-12-06 15:51:00 · 271 阅读 · 0 评论 -
ubunt18.04安装mujoco,mujoco_py教程
1.简介mujoco是一个物理引擎,可以在mujoco验证算法,类似的平台还有VREP。mujoco_py是mujoco编程的python接口,可以使用mujoco_py调用mujoco的API。mujoco_py由OpenAI Gym开发,具有一定权威性。2.mujoco的安装与配置mujoco官网:http://www.mujoco.org/2.1mujoco下载下载地址:官网首页...原创 2019-06-18 04:11:01 · 10243 阅读 · 5 评论