强化学习
文章平均质量分 67
北郭zz
决策推理 强化学习 机器学习 多智能体 复杂网络
展开
-
【零基础强化学习】 基于tkinter搭建gridworld强化学习环境
【零基础强化学习】 基于tkinter搭建gridworld强化学习环境状态、奖励、done都可以自己设置噢!有问题的小伙伴可以与我联系交流!原创 2022-04-16 11:46:30 · 2307 阅读 · 4 评论 -
【零基础强化学习】基于玻尔兹曼采样的DQN智能体
【零基础强化学习】基于玻尔兹曼采样的DQN智能体原创 2022-04-15 21:47:40 · 328 阅读 · 0 评论 -
【零基础强化学习】100行代码跑通基于DDPG的倒立摆实验
【零基础强化学习】100行代码跑通基于DDPG的倒立摆实验超参已经调好,直接运行即可看到训练效果,有需要交流的同学可以加我留言噢!原创 2022-04-15 21:43:32 · 880 阅读 · 3 评论 -
【零基础强化学习】基于DQN的highway自动驾驶
基于DQN的highway车道保持,代码可以直接跑通,但是效果不好需要调参,有需要的小伙伴多多加我交流呀!!原创 2022-04-12 00:05:45 · 2339 阅读 · 15 评论 -
【零基础强化学习】 基于Closed-Form Policy Play BipedalWalker-v3
- 闭式解closed form solution)也叫解析解(analytical solution),就是一些严格的公式,给出任意的自变量就可以求出其因变量,也就是问题的解, 他人可以利用这些公式计算各自的问题。(代码**只有测试**过程)原创 2022-01-16 23:40:46 · 1538 阅读 · 0 评论 -
【零基础强化学习】基于PPO训练gym的Acrobot机械臂
- Acrobot机器人系统包括两个关节和两个连杆,其中两个连杆之间的关节可以被致动。 最初,连杆是向下悬挂的,目标是将下部连杆的末端摆动到给定的高度。原创 2022-01-16 23:23:33 · 4506 阅读 · 10 评论 -
【零基础强化学习】教你跑通基于Q-learning的gym“Pong-v4‘”乒乓球对决
- Pong是起源于1972年美国的一款模拟两个人打乒乓球的游戏,近几年常用于测试强化学习算法的性能。这篇文章主要记录如何用DQN实现玩Atari游戏中的Pong,希望大家一起交流学习!原创 2022-01-16 02:32:53 · 5211 阅读 · 16 评论 -
【零基础强化学习】教你用Q-learning训练基于gym的火箭月球着陆器
- 需要小火箭能精确、平稳(缓慢)的降落在停机坪!代码亲手跑通,大概需要训练30分钟能达到基本目的!原创 2022-01-16 01:37:44 · 3103 阅读 · 4 评论 -
【零基础强化学习】教你训练基于SARSA的出租车调用
- Gym库的Taxi-v2环境实现了出租车调度问题的环境。导入环境后,可以用env.reset()来初始化环境,用env.step()来执行一步,用env.render()来显示当前局势。env.render()会打印出的局势图,其中乘客的位置、目的地会用彩色字母显示,出租车的位置会高亮显示。具体而言,如果乘客不在车上,乘客等待地点(位置)的字母会显示为蓝色。目的地所在的字母会显示为洋红色。如果乘客不在车上,出租车所在的位置会用黄色高亮;如果乘客在车上,出租车所在的位置会用绿色高亮。原创 2022-01-16 00:35:48 · 1902 阅读 · 0 评论 -
【零基础强化学习】多进程介绍
多进程介绍原创 2022-01-16 00:00:00 · 1848 阅读 · 0 评论 -
【Advances in Neural Information Processing Systems 34 pre-proceedings 】 NIPS2021会议
【Advances in Neural Information Processing Systems 34 pre-proceedings 】 NIPS2021会议原创 2022-01-14 14:12:39 · 4125 阅读 · 2 评论 -
【零基础强化学习】100行代码教你训练——基于SARSA的CliffWalking爬悬崖游戏
【零基础强化学习】100行代码教你训练——基于SARSA的CliffWalking爬悬崖游戏,sarsa下一步的Q对应的action是经过贪婪-探索的实际与环境交互的动作(==属于on-policy==),加了探索的动作会对环境中reward比较低的状态很敏感,所以实验结果**很胆小**!原创 2022-01-13 20:05:26 · 6874 阅读 · 7 评论 -
【零基础强化学习】100行代码教你训练——基于Q-learning的CliffWalking爬悬崖游戏
【零基础强化学习】100行代码教你训练——基于Q-learning的CliffWalking爬悬崖游戏,代码亲自跑通,一起交流学习呀q-learning下一步的Q对应的action是直接选取最大值,不是实际与环境交互的动作(==属于off-policy==),只选最大值的总动作意味着只关心高奖励的状态,低奖励影响不大,所以实验结果贴着障碍物走,**很大胆**!原创 2022-01-13 19:41:19 · 3472 阅读 · 2 评论 -
【零基础强化学习】3个模块教你跑通基于DQN的FlappyBird
3个模块教你跑通基于DQN的FlappyBird代码全部亲自跑通,你懂的!原创 2022-01-13 03:02:42 · 4917 阅读 · 20 评论 -
【零基础强化学习】100行代码教你实现基于DQN的gym车杆控制
【零基础强化学习】100行代码教你实现基于DQN的gym车杆控制,所有代码均亲自跑通,你懂的!????原创 2022-01-13 02:24:24 · 4288 阅读 · 7 评论 -
【零基础强化学习】200行代码教你实现基于Q-learning的迷宫找路
- 作为一个新手,写这个强化学习-基础知识专栏是想和大家分享一下自己强化学习的学习历程,希望大家互相交流一起进步!????原创 2022-01-13 01:32:27 · 3800 阅读 · 4 评论 -
【零基础强化学习】100行代码教你实现基于DQN的gym登山车
【零基础强化学习】100行代码教你实现基于DQN的gym登山车,代码可直接跑通,包括模型搭建、训练、保存、测试!你懂的原创 2022-01-13 01:03:12 · 4601 阅读 · 2 评论 -
【零基础强化学习】基于DDPG的倒立摆训练
- 基于DDPG 的倒立摆训练代码 - 直接运行就完事,你可以看到一个挺值的倒立摆!原创 2022-01-11 21:51:58 · 6123 阅读 · 4 评论 -
【零基础强化学习】强化学习中的有模型和无模型
关于强化学习中的有模型和无模型的区别与联系,planning与learning原创 2022-01-11 21:08:04 · 8879 阅读 · 7 评论