![](https://img-blog.csdnimg.cn/20200924005237921.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
IL&IRL&RL
文章平均质量分 96
反复摩擦,理解、学习巨佬思想
爱吃猫的小鱼干
这个作者很懒,什么都没留下…
展开
-
【Tools-Mujoco】创建自定义的Mujoco模型
Mujoco是一个很好的仿真工具。你可能对它很熟悉,因为它强化学习领域受到众多学者的青睐,在OpenAI Gym中也有Mujoco的使用。 Mujoco提供了超快的动力学模拟,重点是接触动力学。它对于模拟机器人手臂和抓取任务特别有效,在模型预测控制和机器人模仿学习研究的文章中也颇具价值。获取更多内容,请访问博主的个人博客 爱吃猫的小鱼干的Blog前言Mujoco官网有一个常用的模型库,可以满足基本需求。但我们也可以针对特定的需求建立自己的模型,这在Mujoco中是比较容易的。定义一个模型有两个部分原创 2021-04-07 20:57:14 · 2579 阅读 · 0 评论 -
使用OpenPose进行姿态估计
文章内容逐步补充中…一 通过Demo快速开始1.1 Video# Ubuntu./build/examples/openpose/openpose.bin --video examples/media/video.avi# 多 GPUs,如采用两块 GPUs,GPUs 1 和 2,跳过 GPUs 0../build/examples/openpose/openpose.bin --video examples/media/video.avi --num_gpu 2 --num_gpu_start原创 2020-11-03 17:06:41 · 1341 阅读 · 0 评论 -
光流文件(.flo)转图像
一 光流文件转图像的方法光流的文件一般是以.flo格式文件保存的,需要转换成.png等图片格式直观显示。简单得记录操作步骤。测试环境:ubuntu16.04系统,windows系统应该类似,无非就是编译方式不同而已,具体步骤如下:前往http://vision.middlebury.edu/flow/submit/下载imageLib工具包,选择高亮的 flow-code.zip文件。解压flow-code.zip,在flow-code文件夹下执行以下命令:cd imageLibmakecd原创 2020-11-01 20:33:18 · 1637 阅读 · 8 评论 -
【Linux】Ubun16.04服务器配置Mujoco的各种错误解决方案
一把辛酸泪,不论在哪配置强化学习环境,Mujoco永远是错误套错误套错误…接下来,Mujoco下载和获取密匙、mujoco环境变量等过程跳过,这些几乎不会遇到问题。从安装编译mujoco_py开始看看Mujoco无底洞一样的坑。一 必不可缺的库先来看看官方示例,如果你运行下面命令并成功安装,那可真是天选之子。sudo apt install libosmesa6-dev libgl1-mesa-glx libglfw3博主数台机器没有一次是直接成功,报错一般是libosmesa6 (= 11.2原创 2020-10-31 20:02:59 · 2217 阅读 · 2 评论 -
【RL】策略梯度(VPG)与Actor-critic的思想与推导
文章目录一 RL学习什么二 Vanilla Policy Gradient(VPG)2.1 策略网络的构造2.2 推导最基本的策略梯度2.3 VPG算法三 Actor-Critic3.1 AC的出发点3.2 对策略梯度的优化3.2.1 不要受过去的影响(Don’t Let the Past Distract You)3.2.2 Q^(st,at)\hat{Q}(s_t,a_t)Q^(st,at) 的Baseline3.3.3 Value net怎么更新3.3 Actor-Critic算法一 RL学习原创 2020-10-16 00:26:59 · 1269 阅读 · 0 评论 -
【RL】Actor-Critic训练技巧
一 广义优势函数估计(GAE)在VPG中,我们用的r(τ)r(\tau)r(τ)的均值来指引策略的更新,这是个环境给出的“客观”的值;而在AC算法中,我们企图用A_{w}(s, a)来指引梯度更新,但根据算法的设计,这个所谓的A_{w}(s, a)完全是用我们的神经网络算出来的,是“主观的”而不是“客观的”。如果我们算出的A_{w}(s, a)与真实值相差较远,那么对于训练策略网络就完全不能使得策略朝着更好的方向改变,我们的算法自然也无法取得好的结果。VPG的缺点在于,虽然r(τ)r(\tau)r(τ)是原创 2020-10-12 23:03:25 · 1055 阅读 · 0 评论 -
【RL】Actor-Critic
强化学习的算法分为基于价值与基于策略两大类,这两大类在思想上是完全不同的。基于价值的算法目标是拟合隐藏在环境中的价值函数,而基于策略的算法则是不断地优化策略。所有强化学习的算法,基本的思想都不外乎于这两种。从这个角度上说,Actor-Critic算法本质上还是基于策略的方法,因为其算法的核心还是在不断地优化策略。虽然我们要训练价值网络,但是其目标也只是“辅佐”策略网络更好地训练。当我们学习VPG算法的时候,其理论与训练方式都与DQN完全不同,因为这本质上是两种不同的算法;而在下面的Actor-Critic算原创 2020-10-12 22:40:16 · 497 阅读 · 0 评论 -
【RL】策略梯度的训练技巧
一 r(τ)r(\tau)r(τ)的baseline毫无疑问, r(τ)r(\tau)r(τ)代表着轨道τ\tauτ的好坏。按照我们推导出来的policy gradient的式子,r(τ)r(\tau)r(τ)大于0的时候,训练会使得这个轨道上涉及的所有πw(ai∣si)\pi_{w}\left(a_{i} \mid s_{i}\right)πw(ai∣si)增加。这说明,如果τ\tauτ是一条比较好的轨道,则我们应该“充分学习成功的经验”,让τ\tauτ涉及到的每一次决策(si,ai)(s_i,原创 2020-10-12 21:01:53 · 541 阅读 · 0 评论 -
【RL】Vanilla Policy Gradient(VPG)
policy gradient的基本思想,是把总的奖励表示为策略的函数,然后对这个函数做优化。在这一章中,我们将详细地讲解这个函数具体的形式是怎么样的、如何求出策略梯度,理解policy gradient这个算法的基本框架。关于MDP中动作与状态是否是连续变量,一共有四种不同的组合。其中,状态是有限分类变量的情况是不适合采用神经网络的,所以在这里不予讨论。在本章中,主要要考虑的情况是状态sss为连续高维变量、动作aaa为分类变量(有限个)的MDP。并且,设环境Ps,s′aP_{s, s^{\prime}}原创 2020-10-12 23:05:03 · 851 阅读 · 0 评论 -
【RL】强化学习的基本思想
在机器学习中,有监督学习和无监督学习的特点是基于已有的数据,去学习数据的分布或蕴含的其他重要信息。强化学习与上述这二者最显著的不同在于,首先它不是基于已有的数据进行学习,而是针对一个环境进行学习;另外,它的目标不是学习数据中蕴含的信息,而是寻找能够在环境中取得更多奖励的方法。通俗地说,监督学习的目标只是“弄清楚环境是什么样的”,而强化学习的目标是“在这个环境中生活得更好”。上述的特点导致了强化学习的思维模式与我们所熟悉的监督学习或非监督学习有非常大的区别。概括地说,强化学习算法主要涉及到两个组成部分:其一原创 2020-10-11 21:24:30 · 1351 阅读 · 0 评论 -
【RL】算法简介与实现
DQNDQN是在Q-Learning的主框架上做了扩展,包括:记忆库(用于重复学习)神经网络计算Q值暂时冻结Q_target参数(切断相关性)原创 2020-10-12 23:11:31 · 7967 阅读 · 0 评论