强化学习
csdnqixiaoxin
这个作者很懒,什么都没留下…
展开
-
RL关键概念
本文内容摘录自OpenAI的深度强化学习资源Spinning Up,进入网址。智能体与环境强化学习(RL)主要包括智能体(agent)和环境(environment)两部分。在智能体与环境交互的每一步,智能体获取(或部分获取)环境状态的一个观测(observation),并采取一个动作(action)。环境会在智能体作用于它的时候发生变化(或者自己变化)。 智能体会从环境中获得奖励(...原创 2018-11-18 23:47:56 · 2207 阅读 · 0 评论 -
策略梯度
策略优化本文内容摘自Open AI的深度强化学习资源Spinning Up,进入网址。策略优化是无模型(model-free)强化学习方法的一类。它使用πθ(a∣s)\pi_{\theta}(a|s)πθ(a∣s)来显式地表示策略,对参数θ\thetaθ直接利用梯度下降来优化(或者间接优化)。策略优化是on-policy的,即仅使用遵循最新策略所获得的数据来更新参数。最简单的策略梯度...原创 2018-11-19 11:43:35 · 2186 阅读 · 1 评论 -
mujoco以及mujoco-py的安装
最近在看强化学习,打算安装一下mujoco。安装的过程中遇到一些问题,记录一下。安装mujoco安装过程参考这篇文章。要注意的是:添加环境变量之后,要执行:source ~/.bashrc使得环境变量生效,否则会出现找不到动态链接库的情况。安装mujoco-py安装安装mujoco-py我参考的是这篇文章,不过只用到了其中的一部分。下载并解压mujoco-py源码后:cd ~/...原创 2019-01-25 13:51:33 · 6054 阅读 · 2 评论