MountainCarContinuous-v0，基于DDPG，pytorch，200轮收敛

lfss_zxj

已于 2024-05-22 23:24:00 修改

阅读量1.1k

点赞数 9

文章标签： pytorch python 深度学习机器学习

于 2024-05-22 23:23:13 首次发布

本文链接：https://blog.csdn.net/m0_71983290/article/details/139131970

版权

基本上就是最基础的DDPG算法，稍微改了reward机制（不改是真收敛不了），大概200轮左右收敛（我设置的是每轮超过1000次动作之后还是没有抵达终点的话跳出）

首先我们需要了解state的具体情况，state[0]是山地车的位置，起始位置是-0.5;state[1]是山地车的速度，负的表示向左移动，正的表示向右移动，依据这个就可以设计奖励值了。

1、第一种奖励值设置方法是基于state[0]的，也就是reward=abs(state[0]+0.5)，表示离起点越远，奖励越高，不过根据实际来说效果一般

2、第二种奖励值设置方法是基于state[1]的，也就是reward=abs(state[1])，表示速度越大，给予越大的奖励值，前期效果还行，但后期很难抵达终点（大概原因就是他认为不去终点更容易拿到更多奖励）

3、第三种奖励值设置方法还是基于state[1]的，只不过把思路稍微转换一下，即reward=abs(state[1])-2，因为时间拖的越久，total_reward肯定越低，这样的话他在第一次抵达终点之后，会愿意更多的去终点，解决了第二种方法的缺陷

除了以上三种奖励设置之外，还有更多的奖励设置方法（比如把state[0]和state[1]结合起来之类的）就留给你们自己去想了，总的来说第三种方法是我目前找到的最容易收敛的方法

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

lfss_zxj

关注关注

9
点赞
踩
12

收藏

觉得还不错? 一键收藏
3
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

强化学习------DDPG算法(附pytorch代码)

niulinbiao的博客

03-16

1万+

算法是DeepMind团队提出的一种专门用于解决连续控制问题的在线式(on-line)深度强化学习算法，它其实本质上借鉴了算法里面的一些思想。本文将会介绍其基本原理，并实现DDPG算法来训练游戏的例子。

【gym】【连续动作空间】【Mountain Car 山地车】

最新发布

wq6qeg88的博客

08-25

1654

山地车 MDP 是一种确定性 MDP，它由一辆随机放置在正弦谷底部的汽车组成，唯一可能的动作是可以在任一方向上应用于汽车的加速度。gym 中的山地车域有两个版本：一个具有离散动作，另一个具有连续动作。范围的动作，power 是常数 0.0015。两端的碰撞都是无弹性的，与壁碰撞时速度设置为 0。位置被裁剪到 [-1.2， 0.6] 范围，力度被裁剪到 [-0.07， 0.07] 范围。的负奖励，以惩罚采取大幅度的操作。如果山地车达到目标，则在该时间步长的负奖励中增加 +100 的正奖励。

3 条评论您还未登录，请先登录后发表或查看评论

MountainCarContinuous-v0 with PPO 入门

weixin_43949898的博客

07-19

1235

MountainCarContinuous-v0 是一个经典的强化学习环境，主要用于测试连续动作空间的算法。它是 OpenAI Gym 中的一个环境，模拟了一个小车在一个山谷中的运动，目标是通过控制小车的加速度，使其能够爬上山顶。

DRL深度强化学习代码实战1——MountainCar-v0小车成功登顶

各位大计佬，请教我技术！

05-12

2826

DRL代码实战1——如果你是刚刚接触DRL的同学，那么本文的内容就是引你入胜的第一个小实验。DRL的学习离不开理论知识，但更不能缺少代码实践！

【强化学习】 A3C MountainCarContinuous

颹蕭蕭

04-03

4238

import gym import multiprocessing import threading import numpy as np import os import shutil import matplotlib.pyplot as plt import tensorflow as tf # number of worker agents no_of_workers = multipr...

MountainCar-v0 入门

weixin_43949898的博客

07-11

757

MountainCar-v0 是一个经典的强化学习环境，属于 OpenAI Gym 提供的一部分。它的目标是帮助研究和实验基本强化学习算法。

[强化学习实战]DQN算法实战-小车上山(MountainCar-v0)

wangyifan123456zz的博客

10-24

1万+

案例分析如图1所示，一个小车在一段范围内行驶。在任一时刻，在水平方向看，小车位置的范围是[-1.2,0.6]，速度的范围是[-0.07,0.07]。在每个时刻，智能体可以对小车施加3种动作中的一种：向左施力、不施力、向右施力。智能体施力和小车的水平位置会共同决定小车下一时刻的速度。当某时刻小车的水平位置大于0.5时，控制目标成功达成，回合结束。控制的目标是让小车以尽可能少的步骤达到目标。一般认为，如果智能体在连续100个回合中的平均步数≤110，就认为问题解决了。在绝大多数情况下，智能体简单向右施力并

【强化学习实战-04】DQN和Double DQN保姆级教程（2）：以MountainCar-v0

HsinglukLiu的博客

02-26

2383

【强化学习实战】DQN和Double DQN保姆级教程（2）：以MountainCar-v0为什么用Deep Q Network (DQN)实战：用Double DQN求解MountainCar问题MountainCar问题详解MountainCar问题的源代码解释cartpole.pyMountainCar的状态(Observation)MountainCar的动作MountainCar的目的DQN 求解MountainCar问题：完整代码详解定义神经网络Q(w)Q(\mathbf{w})Q(w)神经网络

DeepReinforcementLearning：深度RL实施。在pytorch中实现的DQN，SAC，DDPG，TD3，PPO和VPG。经过测试的环境：LunarLander-v2和Pendulum-v0

02-13

连续环境：Pendulum-v0 DQN -- VPG -- DDPG -- TD3 -- SAC -- PPO -- 用法：只需直接运行文件/算法。在我学习算法时，它们之间没有通用的结构。不同的算法来自不同的来源。资源：未来的项目： ...

【深度强化学习】(5) DDPG 模型解析，附Pytorch完整代码

热门推荐

博观而约取，厚积而薄发

03-12

5万+

深度确定性策略梯度算法 (Deterministic Policy Gradient，DDPG)。DDPG 算法使用演员-评论家（Actor-Critic）算法作为其基本框架，采用深度神经网络作为策略网络和动作值函数的近似，使用随机梯度法训练策略网络和价值网络模型中的参数。DDPG 算法架构中使用双重神经网络架构，对于策略函数和价值函数均使用双重神经网络模型架构。

Mountain_car-OpenAI-GYM:OpenAI体育馆山地车问题的解决方案

04-29

问题汽车位于一维轨道上，位于两个“山”之间。目标是驶向右边的山峰；但是，汽车的引擎强度不足以单程通过。因此，成功的唯一方法就是来回驱动以建立动力。方法在这个游戏中，没有给予任何中间奖励。当购物车到达旗帜时，只会给予最终的奖励。因此，为了使小车驶向旗帜，如果小车在左山上向后拉或在右山上向前移动，我们给予+15的奖励。再者，购物车每走一步，都会受到-10的惩罚，这可以确保购物车在最少的时间步长内达到目标（标志），并且如果购物车的最终成绩以较少的步数到达该标志，则可获得+10000的巨额奖励。超过200个时间步，这是我们的最终目标。游戏玩法笔记邀请进一步改进的请求链接到其他OpenAI GYM环境

SAC算法训练稳定指南：实用技巧与成功实践

软行动者-评论家(Soft Actor-Critic, SAC)算法作为一种基于最大熵原理的强化学习算法，在智能决策系统中得到了广泛的关注和应用。本文首先对SAC算法进行了概述，随后深入探讨了其理论基础，包括马尔可夫决策过程...

强化学习:PPO求解MountainCar问题通用代码(也适合其他环境)

赛亚茂的博客

08-27

1679

PPO算法求解小车上山问题

代码如下：import gym # 创建一个 MountainCar-v0 环境 env = gym.make('MountainCar-v0') # 重置环境 observation = env...

weixin_35751412的博客

12-31

387

这段代码导入了 gym 库。 gym 是一个开源的强化学习框架，它提供了一系列经典的控制、游戏、优化问题的模拟环境，用于强化学习算法的训练和测试。使用这个库可以轻松地定义和使用强化学习算法，帮助开发人员快速构建和评估强化学习模型。例如，你可以使用 gym 库来训练一个机器人移动到目标位置的控制算法，或者训练一个 AI 玩游戏的策略。使用 gym 库的流程通常是先导入库，然后创建一个环境，然后...

强化学习:Reinforce with Baseline求解MountainCar-v0小车上山问题

赛亚茂的博客

08-12

1235

A2C网络求解MountainCar-v0问题

一、强化学习及MountainCar-v0 Example

你好，时光的博客

05-31

2763

一、强化学习及MountainCar-v0 Example 强化学习讨论的问题是一个智能体 (agent) 怎么在一个复杂不确定的环境 (environment) 里面去极大化它能获得的奖励。下面是它的示意图：示意图由两部分组成：agent 和 environment。在强化学习过程中，agent 跟 environment 一直在交互。Agent 在环境里面获取到状态，agent 会利用这个状态输出一个动作 (action)，一个决策。然后这个决策会放到环境之中去，环境会根据 agent 采取的决

强化学习基础记录

weixin_47471559的博客

05-15

1001

强化学习DQN

强化学习小例子：DDPG算法 pytorch代码

qq_51798235的博客

01-23

1870

最近在学习强化学习，实践中，使用DDPG训练小车上山小游戏，目标是将小车推到山顶旗子处。然而，运行例程后发现小车一直在谷底徘徊，所以我修改了一下reward以及其他一些参数。

gym-MountainCar-v0离散状态的Q-Learning

野生蘑菇菌的博客

04-17

1972