![](https://img-blog.csdnimg.cn/direct/405497dc3c594d118ed91b8989f5d819.jpeg?x-oss-process=image/resize,m_fixed,h_224,w_224)
Reinforcement Learning
文章平均质量分 92
分享rl学习日常
木心
I seek not to know the answer, but to understand the questions.
欢迎访问我的个人Blog-->
https://shenmuxin.github.io
展开
-
【mujoco】Ubuntu20.04中解决mujoco报错raise error.MujocoDependencyError
查阅了一些资料后,笔者发现了解决办法,从官网分别下载两个文件,放置到上面要求的位置中即可。分析这个问题我们发现,问题中提示我们需要在。笔者已经成功在ubuntu环境下配置了。版的,下载完毕后记得解压缩,防止在路径。分别需要下载两个文件,首先是下载。路径下新增两个文件,一个是。以上就成功解决了该问题。的代码时出现了下列问题。打开链接,直接下载即可。原创 2024-01-04 11:12:59 · 770 阅读 · 0 评论 -
【Math】重要性采样 Importance sample推导【附带Python实现】
越来越逼近0.6,但是经过重要性采样,结果越来越逼近0,符合期望。被称为重要性权重,那么通过这个重要性权重,我们就可以在概率分布。,我们如何通过这个易于获得的概率分布来计算在概率分布。是服从连续的概率分布,并且我们在概率密度函数。是服从离散的概率分布,并且我们在概率分布。然后我们使用大量的离散采样来估计连续的期望。通过重要性采样,我们便可以通过在概率分布。来进行期望的计算,随着样本数的增多,期望。,我们的目标是计算该随机变量的期望。下,有一致同分布的采样。下,有一致同分布的采样。下的采样来计算在概率分布。原创 2024-01-02 18:43:24 · 1294 阅读 · 2 评论 -
【Math】高斯分布的乘积 Product of Gaussian Distribution【附带Python实现】
高斯分布的乘积原创 2023-12-05 17:20:18 · 376 阅读 · 0 评论 -
【MetaLearning】有关Pytorch的元学习库higher的基本用法
是higher库的上下文管理器,用于创建内部循环(inner loop)的上下文,内部循环通常用于元学习场景,其中在模型参数更新的内部循环中进行一些额外的操作。这个上下文管理器主要有五个参数:(详细请参考官方库说明第一个参数model是需要进行内部循环的模型,通常是你的元模型第二个参数opt是优化器,这是你用来更新模型参数的优化器第三个参数是一个布尔值,用于指定是否在每个内部循环之前复制初始权重,如果设置为True。原创 2023-11-21 11:20:03 · 848 阅读 · 1 评论 -
【mujoco】Ubuntu20.04配置mujoco210
本文简要介绍一下如何在系统中配置mujoco210,用于强化学习。原创 2023-11-15 15:06:02 · 951 阅读 · 2 评论 -
Hands on RL 之 Off-policy Maximum Entropy Actor-Critic (SAC)
记录笔者学习强化学习的过程,附带代码实现原创 2023-08-17 22:29:58 · 226 阅读 · 0 评论 -
Hands on RL 之 Deep Deterministic Policy Gradient(DDPG)
记录笔者学习强化学习的过程,附带代码实现原创 2023-08-15 21:08:43 · 168 阅读 · 0 评论 -
Hands on RL 之 Proximal Policy Optimization (PPO)
记录笔者学习强化学习的过程,附带代码实现原创 2023-08-14 11:04:31 · 134 阅读 · 0 评论 -
Reinforcement Learning with Code【Code 6. Advantage Actor-Critic(A2C)】
记录笔者学习强化学习的过程,附带代码实现原创 2023-08-13 12:52:41 · 147 阅读 · 0 评论 -
Reinforcement Learning with Code 【Chapter 10. Actor Critic】
记录笔者学习深度强化学习的过程,附带代码实现原创 2023-08-12 21:10:08 · 239 阅读 · 0 评论 -
Reinforcement Learning with Code【Code 5. Policy Gradient Methods】
记录笔者学习强化学习的过程,附带代码实现原创 2023-08-11 19:53:55 · 213 阅读 · 0 评论 -
【强化学习】值函数算法DQNs详解【Vanilla DQN & Double DQN & Dueling DQN】
简要实现了DQNs算法的三个变种分别是 Vanilla DQN,Double DQN,Dueling DQN原创 2023-08-11 10:34:38 · 709 阅读 · 0 评论 -
Gym 简明教程【2. v0.26版本对比v0.21版本的改变】
本文记录gymv0.26版本相比于gymv0.21版本的一些改变,(搬运自),gym的基本使用可以参考gym的全称是Gymnasium, 是 OpenAI Gym v26 的一个分支,它与 Gym v21 相比引入了重大的重大更改。在本指南中,我们简要概述了从 Gym v21(已为此编写了许多教程)到 Gym v26 的 API 更改。原创 2023-08-08 20:46:15 · 1338 阅读 · 0 评论 -
Reinforcement Learning with Code 【Code 4. Vanilla DQN】
记录笔者学习强化学习的过程,附带代码实现。原创 2023-08-07 21:19:02 · 304 阅读 · 0 评论 -
Gym 简明教程【1. Basic Usage v0.26.2版本】
我们可以注册一个环境,然后我们可以查看一下这个环境的一些信息,比如action space或者state space等。可以看出,该环境的动作空间是离散的且只有两个动作,状态包含了一些数据,奖励范围是从正无穷到负无穷。如果在构建的时候指定显示渲染,那么则可以看到有游戏图像出现。下面介绍常用的强化学习范式。常用的method包括。原创 2023-08-07 16:51:53 · 802 阅读 · 0 评论 -
Reinforcement Learning with Code & (对比Monte-Carlo与TD算法)【Code 3. MonteCarlo】
记录笔者学习强化学习过程,附带代码实现原创 2023-08-03 16:20:01 · 157 阅读 · 0 评论 -
Python tqdm的两种用法【教程】
本文记录一下在学习深度强化学习过程中遇到tqdm库显示进度条的用法,以供大家交流。注意本文使用的tqdm均是使用的tqdm库中的同名tqdm方法,应该按照如下方式导入。原创 2023-08-02 15:00:51 · 886 阅读 · 0 评论 -
Reinforcement Learning with Code 【Code 2. Tabular Sarsa】
记录笔者学习强化学习的过程,附带代码实现原创 2023-07-31 14:37:35 · 929 阅读 · 1 评论 -
Reinforcement Learning with Code 【Code 1. Tabular Q-learning】
记录笔者学习强化学习的过程,附带代码实现原创 2023-07-29 20:08:19 · 726 阅读 · 0 评论 -
Reinforcement Learning with Code 【Chapter 9. Policy Gradient Methods】
记录笔者学习强化学习的过程,附带代码实现原创 2023-07-29 16:53:22 · 226 阅读 · 0 评论 -
Reinforcement Learning with Code 【Chapter 8. Value Funtion Approximation】
记录笔者学习强化学习的过程,附带代码实现原创 2023-07-28 20:57:12 · 195 阅读 · 0 评论 -
Reinforcement Learning with Code 【Chapter 7. Temporal-Difference Learning】
记录笔者学习强化学习的过程,附带代码实现原创 2023-07-27 14:22:43 · 140 阅读 · 0 评论 -
Reinforcement Learning with Code 【Chapter 6. Stochastic Approximation】
记录笔者学习强化学习的过程,附带代码实现原创 2023-07-25 15:48:31 · 188 阅读 · 0 评论 -
Reinforcement Learning with Code 【Chapter 5. Monte Carlo Learning】
记录笔者学习强化学习的过程,附带代码实现原创 2023-07-24 21:00:31 · 124 阅读 · 0 评论 -
Reinforcement Learning with Code 【Chapter 4. Value Iteration and Policy Iteration】
记录笔者学习强化学习的过程,附带代码实现原创 2023-07-23 17:34:52 · 82 阅读 · 0 评论 -
Reinforcement Learning with Code 【Chapter 3. Optimal State Value and Bellman Optimal Equation】
记录笔者学习强化学习的过程,附带代码实现原创 2023-07-23 14:19:15 · 78 阅读 · 0 评论 -
Reinforcement Learning with Code 【Chapter 2. State Value and Bellman Equation】
记录笔者学习强化学习的过程,附带代码实现原创 2023-07-21 21:21:04 · 80 阅读 · 0 评论 -
Reinforcement Learning with Code 【Chapter 1. Basic Concepts】
记录笔者学习强化学习的过程,附带代码实现原创 2023-07-21 15:28:55 · 114 阅读 · 0 评论