强化学习
我的辉
这个作者很懒,什么都没留下…
展开
-
强化学习-A3C
A3C核心思想:Global NetWork和每个Worker网络结构是一样的。拿每个Worker网络去训练,训练完之后,拿自己的梯度去更新Global NetWork梯度。Global NetWork再将自己的梯度去更新每个Worker的梯度代码实现参考...原创 2021-08-09 11:23:29 · 687 阅读 · 4 评论 -
强化学习-PPO
论文地址Proximal Policy Optimization Algorithms流程图参考强化学习–从DQN到PPO, 流程详解代码实现参考PPO实现(Pendulum-v0)import gymimport argparseimport torchimport torch.nn as nnimport torch.nn.functional as Fimport numpy as npimport matplotlib.pyplot as pltclass ActorNe原创 2021-08-09 10:31:41 · 420 阅读 · 0 评论 -
强化学习-DDPG
流程图参考强化学习–从DQN到PPO, 流程详解代码实现参考DDPG实现import gymimport torchimport torch.nn as nnimport torch.nn.functional as Fimport numpy as npimport argparseimport randomfrom collections import dequeimport matplotlib.pyplot as plt# ======================原创 2021-08-09 10:18:22 · 159 阅读 · 0 评论 -
强化学习-蒙特卡洛
蒙特卡洛的介绍如何用蒙地卡罗方法(Monte-Carlo)估算V值? 下面这篇文章介绍的算法都是使用 First Visit to s蒙特卡洛方法 (Monte Carlo Method)原创 2021-08-09 10:10:02 · 123 阅读 · 0 评论 -
强化学习-策略梯度
强化学习的策略梯度理解可以参考如何理解策略梯度(Policy Gradient)算法?(附代码及代码解释)流程图参考强化学习–从DQN到PPO, 流程详解代码实现参考策略梯度原创 2021-08-08 22:03:28 · 89 阅读 · 0 评论 -
强化学习-A2C
关于A2C的介绍可以参考书本158页流程图此处参考强化学习–从DQN到PPO, 流程详解代码实现import numpy as npimport matplotlib.pyplot as plt%matplotlib inlineimport gymENV = 'CartPole-v0' GAMMA = 0.99 MAX_STEPS = 200 NUM_EPISODES = 1000 NUM_PROCESSES = 16 #同时执行的环境数 NUM_ADVANCED原创 2021-08-08 21:52:20 · 2481 阅读 · 1 评论 -
强化学习-DDQN
DDQN和DQN基本上很像,不同的地方可以参考书本的132页 代码实现import torch.nn as nnimport torch.nn.functional as F import random import torchfrom torch import nnfrom torch import optim import gymimport numpy as np from collections import namedtupleimport warnings原创 2021-08-08 21:32:24 · 1436 阅读 · 0 评论 -
强化学习-DQN
CartPole-v0任务一共有4个状态 车的位置、车的速度、杆的速度和杆的角速度动作只有一个 要么向左要么向右DQN更新公式为流程说明图此处参考了强化学习–从DQN到PPO, 流程详解具体代码from collections import namedtupleimport randomimport torchfrom torch import nnfrom torch import optimimport torch.nn.functional as Fimport gym原创 2021-08-08 21:19:09 · 245 阅读 · 0 评论 -
强化学习-Sarsa和Q-Learning
迷宫任务import numpy as np def main(): #行表示状态 #列表示每个动作 #上右下左 theta_0=np.array([[np.nan,1,1,np.nan], #S0 [np.nan,1,np.nan,1], #S1 [np.nan,np.nan,1,1], #S2 [1,1,原创 2021-08-08 20:42:13 · 234 阅读 · 0 评论 -
强化学习-动态规划
使用动态规划的目的是为了求解在一个策略下的状态的状态价值具体案例可以参考[强化学习(三)用动态规划(DP)求解](https://www.cnblogs.com/pinard/p/9463815.html)原创 2021-08-08 20:20:42 · 121 阅读 · 0 评论 -
强化学习-策略迭代和价值迭代
参考文章强化学习之策略迭代和价值迭代(gym)原创 2021-08-08 20:11:32 · 250 阅读 · 0 评论