强化学习_北郭zz的博客-CSDN博客

强化学习

关注

文章平均质量分 67

关注数：文章数：19 文章阅读量：71022 文章收藏量：277

作者: 北郭zz

决策推理强化学习机器学习多智能体复杂网络

展开

【零基础强化学习】基于tkinter搭建gridworld强化学习环境

【零基础强化学习】基于tkinter搭建gridworld强化学习环境状态、奖励、done都可以自己设置噢！有问题的小伙伴可以与我联系交流！

原创 2022-04-16 11:46:30 · 2307 阅读 · 4 评论
【零基础强化学习】基于玻尔兹曼采样的DQN智能体

【零基础强化学习】基于玻尔兹曼采样的DQN智能体

原创 2022-04-15 21:47:40 · 328 阅读 · 0 评论
【零基础强化学习】100行代码跑通基于DDPG的倒立摆实验

【零基础强化学习】100行代码跑通基于DDPG的倒立摆实验超参已经调好，直接运行即可看到训练效果，有需要交流的同学可以加我留言噢！

原创 2022-04-15 21:43:32 · 880 阅读 · 3 评论
【零基础强化学习】基于DQN的highway自动驾驶

基于DQN的highway车道保持，代码可以直接跑通，但是效果不好需要调参，有需要的小伙伴多多加我交流呀！！

原创 2022-04-12 00:05:45 · 2339 阅读 · 15 评论
【零基础强化学习】基于Closed-Form Policy Play BipedalWalker-v3

- 闭式解closed form solution）也叫解析解(analytical solution)，就是一些严格的公式,给出任意的自变量就可以求出其因变量,也就是问题的解, 他人可以利用这些公式计算各自的问题。(代码**只有测试**过程)

原创 2022-01-16 23:40:46 · 1538 阅读 · 0 评论
【零基础强化学习】基于PPO训练gym的Acrobot机械臂

- Acrobot机器人系统包括两个关节和两个连杆，其中两个连杆之间的关节可以被致动。最初，连杆是向下悬挂的，目标是将下部连杆的末端摆动到给定的高度。

原创 2022-01-16 23:23:33 · 4506 阅读 · 10 评论
【零基础强化学习】教你跑通基于Q-learning的gym“Pong-v4‘”乒乓球对决

- Pong是起源于1972年美国的一款模拟两个人打乒乓球的游戏，近几年常用于测试强化学习算法的性能。这篇文章主要记录如何用DQN实现玩Atari游戏中的Pong，希望大家一起交流学习！

原创 2022-01-16 02:32:53 · 5211 阅读 · 16 评论
【零基础强化学习】教你用Q-learning训练基于gym的火箭月球着陆器

- 需要小火箭能精确、平稳（缓慢）的降落在停机坪！代码亲手跑通，大概需要训练30分钟能达到基本目的！

原创 2022-01-16 01:37:44 · 3103 阅读 · 4 评论
【零基础强化学习】教你训练基于SARSA的出租车调用

- Gym库的Taxi-v2环境实现了出租车调度问题的环境。导入环境后，可以用env.reset()来初始化环境，用env.step()来执行一步，用env.render()来显示当前局势。env.render()会打印出的局势图，其中乘客的位置、目的地会用彩色字母显示，出租车的位置会高亮显示。具体而言，如果乘客不在车上，乘客等待地点（位置）的字母会显示为蓝色。目的地所在的字母会显示为洋红色。如果乘客不在车上，出租车所在的位置会用黄色高亮；如果乘客在车上，出租车所在的位置会用绿色高亮。

原创 2022-01-16 00:35:48 · 1902 阅读 · 0 评论
【零基础强化学习】多进程介绍

多进程介绍

原创 2022-01-16 00:00:00 · 1848 阅读 · 0 评论
【Advances in Neural Information Processing Systems 34 pre-proceedings 】 NIPS2021会议

【Advances in Neural Information Processing Systems 34 pre-proceedings 】 NIPS2021会议

原创 2022-01-14 14:12:39 · 4125 阅读 · 2 评论
【零基础强化学习】100行代码教你训练——基于SARSA的CliffWalking爬悬崖游戏

【零基础强化学习】100行代码教你训练——基于SARSA的CliffWalking爬悬崖游戏，sarsa下一步的Q对应的action是经过贪婪-探索的实际与环境交互的动作（==属于on-policy==），加了探索的动作会对环境中reward比较低的状态很敏感，所以实验结果**很胆小**！

原创 2022-01-13 20:05:26 · 6874 阅读 · 7 评论
【零基础强化学习】100行代码教你训练——基于Q-learning的CliffWalking爬悬崖游戏

【零基础强化学习】100行代码教你训练——基于Q-learning的CliffWalking爬悬崖游戏，代码亲自跑通，一起交流学习呀q-learning下一步的Q对应的action是直接选取最大值，不是实际与环境交互的动作（==属于off-policy==），只选最大值的总动作意味着只关心高奖励的状态，低奖励影响不大，所以实验结果贴着障碍物走，**很大胆**！

原创 2022-01-13 19:41:19 · 3472 阅读 · 2 评论
【零基础强化学习】3个模块教你跑通基于DQN的FlappyBird

3个模块教你跑通基于DQN的FlappyBird代码全部亲自跑通，你懂的！

原创 2022-01-13 03:02:42 · 4917 阅读 · 20 评论
【零基础强化学习】100行代码教你实现基于DQN的gym车杆控制

【零基础强化学习】100行代码教你实现基于DQN的gym车杆控制，所有代码均亲自跑通，你懂的！????

原创 2022-01-13 02:24:24 · 4288 阅读 · 7 评论
【零基础强化学习】200行代码教你实现基于Q-learning的迷宫找路

- 作为一个新手，写这个强化学习-基础知识专栏是想和大家分享一下自己强化学习的学习历程，希望大家互相交流一起进步！????

原创 2022-01-13 01:32:27 · 3800 阅读 · 4 评论
【零基础强化学习】100行代码教你实现基于DQN的gym登山车

【零基础强化学习】100行代码教你实现基于DQN的gym登山车，代码可直接跑通，包括模型搭建、训练、保存、测试！你懂的

原创 2022-01-13 01:03:12 · 4601 阅读 · 2 评论
【零基础强化学习】基于DDPG的倒立摆训练

- 基于DDPG 的倒立摆训练代码 - 直接运行就完事，你可以看到一个挺值的倒立摆！

原创 2022-01-11 21:51:58 · 6123 阅读 · 4 评论
【零基础强化学习】强化学习中的有模型和无模型

关于强化学习中的有模型和无模型的区别与联系，planning与learning

原创 2022-01-11 21:08:04 · 8879 阅读 · 7 评论

强化学习

作者: 北郭zz

【零基础强化学习】 基于tkinter搭建gridworld强化学习环境

【零基础强化学习】基于玻尔兹曼采样的DQN智能体

【零基础强化学习】100行代码跑通基于DDPG的倒立摆实验

【零基础强化学习】基于DQN的highway自动驾驶

【零基础强化学习】 基于Closed-Form Policy Play BipedalWalker-v3

【零基础强化学习】基于PPO训练gym的Acrobot机械臂

【零基础强化学习】教你跑通基于Q-learning的gym“Pong-v4‘”乒乓球对决

【零基础强化学习】教你用Q-learning训练基于gym的火箭月球着陆器

【零基础强化学习】教你训练基于SARSA的出租车调用

【零基础强化学习】多进程介绍

【Advances in Neural Information Processing Systems 34 pre-proceedings 】 NIPS2021会议

【零基础强化学习】100行代码教你训练——基于SARSA的CliffWalking爬悬崖游戏

【零基础强化学习】100行代码教你训练——基于Q-learning的CliffWalking爬悬崖游戏

【零基础强化学习】3个模块教你跑通基于DQN的FlappyBird

【零基础强化学习】100行代码教你实现基于DQN的gym车杆控制

【零基础强化学习】200行代码教你实现基于Q-learning的迷宫找路

【零基础强化学习】100行代码教你实现基于DQN的gym登山车

【零基础强化学习】基于DDPG的倒立摆训练

【零基础强化学习】强化学习中的有模型和无模型

【零基础强化学习】基于tkinter搭建gridworld强化学习环境

【零基础强化学习】基于Closed-Form Policy Play BipedalWalker-v3