![](https://img-blog.csdnimg.cn/20201014180756916.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
强化学习
昵称已被吞噬~‘(*@﹏@*)’~
这个作者很懒,什么都没留下…
展开
-
【强化学习环境】TSP问题强化学习环境搭建
【代码】【强化学习环境】TSP问题强化学习环境搭建。原创 2023-07-03 16:56:56 · 216 阅读 · 0 评论 -
【强化学习】解决gym安装Atari2600环境gym[atari,accept-rom-license] RuntimeError 无法下载Roms的问题
安装gym[accept-rom-license]时会出现安装失败的情况,因为Roms.tar.gz文件因网络问题下载不下来,而且这个包不是很好找(google上也没找到,还是在一段代码里看见的下载地址),使用一下方法替代:step1:先安装AutoROM: pip install AutoROMstep2:然后使用下载的Roms.tar.gz文件安装Atari2600: AutoROM --source-file ./Roms.tar.gz原创 2023-02-21 11:07:18 · 2324 阅读 · 0 评论 -
【强化学习】tensorflow2.x PPO-Clip with GAE 训练 agent 玩 Atari
【强化学习】tensorflow2.x PPO-clip with GAE 训练 agent 玩 Atari原创 2023-02-20 10:25:18 · 241 阅读 · 0 评论 -
【强化学习】基于tensorflow2.x 的 PPO2(离散动作情况) 训练 CartPole-v1
【强化学习】基于tensorflow2.x 的 PPO2(离散动作情况) 训练 CartPole-v1。原创 2023-01-18 01:24:21 · 958 阅读 · 0 评论 -
【深度强化学习实战】tensorflow2.x 训练 muzero 玩井字棋(tic-tac-toe)
【深度强化学习实战】tensorflow2.x 训练 muzero 玩井字棋(tic-tac-toe)原创 2022-08-04 09:14:25 · 574 阅读 · 0 评论 -
【tensorflow2.x】训练 muzero 玩五子棋 (Gomoku)
tensorflow2.x 训练 muzero 玩五子棋 (Gomoku)原创 2022-08-01 15:49:40 · 1923 阅读 · 3 评论 -
【强化学习】tensorflow2.x 构造 SoftActorCritic(SAC) 训练 LunarLanderContinuous-v2
论文地址.策略网络的损失函数不是按照原论文所写。requirements.txt:tensorflow-gpu==2.4.0gym[all]==0.21.0tensorflow_probability==0.14.0keras==2.6.0matplotlib==3.5.1from tensorflow.keras import layers, models, Input, optimizers, lossesfrom tensorflow_probability.python...原创 2022-04-14 23:47:24 · 1904 阅读 · 9 评论 -
【强化学习】强化学习环境搭建,gym构造五子棋Gomoku
from gym.envs.classic_control import renderingimport numpy as npimport gymdef check(filter, state, size, filter_w, filter_h): done = False result = [] for i in range(size - filter_h + 1): for j in range(size - filter_w + 1):原创 2022-02-26 22:41:28 · 983 阅读 · 0 评论 -
【强化学习】MuZero 训练CartPole-v1
【深度强化学习】tensorflow2.0复现Google DeepMind版本的muzero训练CartPole-v1参考资料:[1]ColinFred. 蒙特卡洛树搜索(MCTS)代码详解【python】. 2019-03-23 23:37:09.[2]饼干Japson 深度强化学习实验室.【论文深度研读报告】MuZero算法过程详解.2021-01-19.[3]Tangarf. Muzero算法研读报告. 2020-08-31 11:40:20 .[4]带带弟弟好吗. AlphaGo版本三原创 2022-02-25 19:02:41 · 6067 阅读 · 11 评论 -
【强化学习】tensorflow2.0构造DDPG训练LunarLanderContinuous-v2
from tensorflow.keras import optimizers, layers, models, lossesfrom collections import dequeimport matplotlib.pyplot as pltimport tensorflow as tfimport numpy as npimport randomimport gymimport copy# 配置GPU内存physical_devices = tf.config.experiment原创 2022-02-08 11:49:33 · 2492 阅读 · 0 评论 -
【强化学习】基于tensorflow2.2实现A3C训练火箭着陆器LunarLander-v2
本来是想训练SpaceInvaders-v4来着,结果电脑train不起来,就换成LunarLander-v2了import matplotlib.pyplot as pltimport tensorflow as tfimport numpy as npimport threadingimport gymepisodes = 2000gamma = 0.9learning_rate = 1e-3num_workers = 3game = 'LunarLander-v2'state原创 2021-05-24 23:41:58 · 915 阅读 · 0 评论 -
【强化学习】pysc2 星际争霸环境测试
如何安装就不说了Game.pyfrom pysc2.env import sc2_envclass Game_StarCraftII(object): def __init__(self, config, agents): self.game_history = { 'observations': [], 'actions': [], 'rewards': None } p原创 2021-03-29 17:17:47 · 300 阅读 · 0 评论 -
【强化学习实战】tensorflow2.0 实现 MuZero
参考:[1]ColinFred. 蒙特卡洛树搜索(MCTS)代码详解【python】. 2019-03-23 23:37:09.[2]饼干Japson 深度强化学习实验室.【论文深度研读报告】MuZero算法过程详解.2021-01-19.[3]Tangarf. Muzero算法研读报告. 2020-08-31 11:40:20 .[4]带带弟弟好吗. AlphaGo版本三——MuZero. 2020-08-30.[5]Google原论文:Mastering Atari, Go, Chess a原创 2021-02-08 11:59:59 · 872 阅读 · 2 评论