![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
强化学习
我是。
可能是一只仓鼠
展开
-
【强化学习】揭开PPO2算法的神秘面纱(二)
PPO受到与TRPO相同的问题的启发:我们如何才能使用当前拥有的数据在策略上采取最大可能的改进步骤,而又不会走得太远而导致意外导致性能下降?在TRPO试图通过复杂的二阶方法解决此问题的地方,PPO使用的是一阶方法,它使用其他一些技巧来使新策略接近于旧策略。PPO方法实施起来非常简单,而且从经验上看,其性能至少与TRPO相同。其次PPO算法也是AC架构。原创 2020-02-02 15:16:32 · 6643 阅读 · 1 评论 -
【强化学习】揭开PPO2算法的神秘面纱(一)
PPO受到与TRPO相同的问题的启发:我们如何才能使用当前拥有的数据在策略上采取最大可能的改进步骤,而又不会走得太远而导致意外导致性能下降?在TRPO试图通过复杂的二阶方法解决此问题的地方,PPO使用的是一阶方法,它使用其他一些技巧来使新策略接近于旧策略。PPO方法实施起来非常简单,而且从经验上看,其性能至少与TRPO相同。其次PPO算法也是AC架构。原创 2020-02-01 19:30:35 · 18369 阅读 · 3 评论 -
强化学习——策略优化(笔记)
本文将会讨论策略优化的数学基础,并且会附上简单的实践代码。三个要点一个简单的等式,将策略梯度跟策略模型参数连接起来一条规则,允许我们将无用的项从等式里去掉另一条规则,允许我们在等式中添加有用的项推导最简单的策略梯度在这里,我们考虑随机参数化策略的情况πθ\pi _ {\theta}πθ。我们的目标是使预期收益J(πθ)=Eτ∼πθ[R(τ)]J(\pi _ {\theta})= \...原创 2020-01-31 18:12:05 · 3428 阅读 · 0 评论 -
【强化学习】你应该理解的一些关键概念
强化学习是一种机器学习方法,用于指导agents如何通过反复试验来更好地完成任务,深度强化学习指的是传统的强化学习方法与深度学习(神经网络)相结合的产物。OpenAI提供给我们很多有用的资源,包括:对强化学习相关专业术语,各种算法以及基本理论的介绍一些参与强化学习研究的建议整理了相关主题的学术论文齐全的代码库一些供我们参考的实例安装openai提供的这套教程需要我们先安装pyt...原创 2020-01-30 17:28:29 · 10337 阅读 · 1 评论 -
windows下安装强化学习开源库 tf2rl
一、TF2RL介绍TF2RL是一个深度强化学习库,它使用TensorFlow 2.0实现了各种深度强化学习算法。算法离散行为连续行为分类VPG✔✔Model-free On-policy RLDQN (including DDQN, Prior. DQN, Duel. DQN, Distrib. DQN, Noisy DQN)✔✘Model-free ...原创 2020-01-26 19:03:08 · 1518 阅读 · 0 评论 -
【四足机器人】强化学习实现minitaur运动控制(仿真环境篇)
仿真环境建立4、现实差由于现实的差距,在仿真中学习的机器人控制器在现实环境中往往表现不佳。我们提出两种方法来缩小差距:提高仿真逼真度和学习鲁棒控制器。4.1 提高仿真度前提首先为minitaur机器人创建一个精确的urdf文件用于仿真,假设每个部件的密度是均匀的,根据每个连杆的形状和质量来估计它的惯量。4.1.1执行器模型用位置控制来驱动电机,添加约束en+1=0,即当前时间的误差为...原创 2020-01-24 22:30:04 · 4808 阅读 · 2 评论 -
【四足机器人】强化学习实现minitaur运动控制(决策模型篇)
模型概要1、状态、决策空间(略)状态空间:roll(X轴)、pitch(Y轴),以及沿这两个轴的角速度,8个电机角度2、奖励函数r=(pn−pn−1⋅d−ωΔt∣τn⋅qn∣)(1)r = (p_n-p_{n-1}\cdot d - \omega \Delta t \begin{vmatrix} \tau _n \cdot q_n \end{vmatrix}) \tag{1}r=(pn...原创 2020-01-24 22:29:25 · 2416 阅读 · 2 评论 -
【四足机器人】强化学习实现minitaur运动控制(介绍篇)
某些不太明确以及省略了的地方后续会进行补充相关代码也会补上不过也有可能新开一章,各位将就着看哈硬件结构(略)# 运动控制器1、状态、决策空间状态空间:roll(X轴)、pitch(Y轴),以及沿这两个轴的角速度,8个电机角度2、奖励函数r=(pn−pn−1⋅d−ωΔt∣τn⋅qn∣)(1)r = (p_n-p_{n-1}\cdot d - \omega \Delta t \...原创 2020-01-21 13:16:08 · 4710 阅读 · 1 评论