强化学习入门
文章平均质量分 92
强化学习基础算法原理算法学习和基本的环境安装笔记和心得。
小小何先生
总是感觉自己是个英雄,还很帅!
展开
-
手把手教你强化学习 (一) 什么是强化学习?与机器学习有什么区别?
我的微信公众号名称:AI研究订阅号微信公众号ID:MultiAgent1024公众号介绍:主要研究强化学习、计算机视觉、深度学习、机器学习等相关内容,分享学习过程中的学习笔记和心得!期待您的关注,欢迎一起学习交流进步!强化学习基本简介 在19年4月,有写过一篇强化学习的入门直观简介。强化学习通俗入门简介(一)。感兴趣的可以看一下,如果知道一些基本概念的话,也就没啥必要了,都是些很通俗...原创 2020-02-07 10:35:18 · 3612 阅读 · 5 评论 -
手把手教你强化学习 (二) 强化学习的直观理解和基本概念
我的微信公众号名称:AI研究订阅号微信公众号ID:MultiAgent1024公众号介绍:主要研究强化学习、计算机视觉、深度学习、机器学习等相关内容,分享学习过程中的学习笔记和心得!期待您的关注,欢迎一起学习交流进步!强化学习中的基本概念p47...原创 2020-02-07 10:35:33 · 2024 阅读 · 0 评论 -
手把手教你强化学习 (三)马尔可夫决策过程与贝尔曼方程
在强化学习中,马尔可夫决策过程是对完全可观测的环境进行描述的,也就是说观测到的状态内容完整地包含了决策所需要的特征,几乎所有的强化学习问题都可以转化为MDP。马尔可夫性 什么样的状态具备马尔可夫性(Markov Property)呢?当某一当前状态可知,所有的历史信息都不再需要,当前状态就可以用来决定未来,则认为该状态具有马尔可夫性。用状态转移的概率公式描述马尔可夫性表示如下:P[St...原创 2020-02-22 22:12:08 · 2861 阅读 · 1 评论 -
手把手教你强化学习 (四)动态规划与策略迭代、值迭代
上一节我们说了马尔可夫决策过程,它是对完全可观测的环境进行描述的,也就是观测到的内容完整决定了决策所需要的特征。马尔克服决策过程可以用方程组求解简单问题,但是对于复杂一点的问题,一般通过迭代的思想对其进行求解。动态规划是非常有效的求解马尔可夫决策过程的方法。 动态规划大体思想:在已知模型的基础之上判断策略的价值函数,并在此基础上寻找最优的策略和最优的价值函数;或者直接寻找最优策略和最优价...原创 2020-02-22 22:12:44 · 3807 阅读 · 1 评论 -
手把手教你强化学习 (五) 为什么需要值迭代和策略迭代
在这个系列的马尔可夫决策过程与动态规划这篇文章中我们是有说这个策略迭代和值迭代的,但是说的更公式化一点,本文主要是对其进行一个更加深刻的理解。为什么需要值迭代 其实我们更希望强化学习直接学习出来一个policy直接用这个policy解决问题就可以,那为什么还需要value function呢?其实这个value function是非常重要的,当我们拿到一个state之后,follow当...原创 2020-02-22 22:13:08 · 1987 阅读 · 0 评论 -
手把手教你强化学习 (六) 强化学习中的无模型预测
在大多是强化学习(reinforcement learning RL)问题中,环境的model都是未知的,也就无法直接做动态规划。一种方法是去学MDP,在这个系列的理解强化学习中的策略迭代和值迭代这篇文章中有具体思路。但这种做法还是会存在很多问题,就是在sample过程中会比较麻烦,如果你随机sample的话就会有某些state你很难sample到,而按照某种策略sample的话,又很难得到...原创 2020-02-23 10:17:56 · 2523 阅读 · 0 评论 -
手把手教你强化学习 (七) 强化学习中的无模型控制
在上一篇文章强化学习中的无模型预测中,有说过这个无模型强化学习的预测问题,通过TD、n-step TD或者MC的方法能够获得值函数,那拿到value之后如何获取policy呢?Model-Free Control in Reinforcement Learning 在model free control中的第一个概念就是on-policy 和 off-policy,在现实中的很多问题都是...原创 2020-02-23 19:53:02 · 1566 阅读 · 0 评论 -
手把手教你强化学习 (八) 强化学习中的值函数近似算法
强化学习算法主要有两大类Model-based 的方法和Model-free的方法,model based 的方法也可以叫做 dynamic programming :Model-based dynamic programmingValue iteration: V(s)=R(s)+maxa∈Aγ∑s′∈SPsa(s′)V(s′)V(s) = R(s) + \max_{a \in ...原创 2020-02-24 09:16:45 · 1826 阅读 · 1 评论 -
手把手教你强化学习 (九) 强化学习中策略梯度算法
在强化学习中的值函数近似算法文章中有说怎么用参数方程去近似state value ,那policy能不能被parametrize呢? 其实policy可以被看成是从state到action的一个映射a←π(s)a \leftarrow \pi(s)a←π(s),Parametric Policy We can parametrize the policy:πθ(a∣s)\pi_{...原创 2020-02-25 10:17:23 · 924 阅读 · 1 评论 -
手把手教你强化学习(十) 基于Stochastic Policy的深度强化学习方法
在开始说基于Stochastic Policy的方法之前,我们需要了解一下Policy Gradient的方法。在Policy Gradient里面有一个非常重要的定理:Policy Gradient Theorem。Theorem: For any differentiable policy πθ(a∣s)\pi_{\theta}(a|s)πθ(a∣s), for any of ...原创 2020-02-26 11:02:27 · 630 阅读 · 1 评论 -
强化学习实战(一)强化学习环境-Gym安装到使用入门
强化学习实战(一)强化学习环境-Gym安装到使用入门翻译 2018-08-28 21:20:44 · 52124 阅读 · 3 评论 -
强化学习实战(二)ubuntu16.04安装Anaconda、Gym和 Universe
强化学习实战(二)ubuntu16.04安装Anaconda、Gym和 Universe翻译 2018-08-27 20:35:14 · 6811 阅读 · 11 评论 -
强化学习实战(三)强化学习环境-gym环境--列表
强化学习实战(三)强化学习环境-gym环境--列表原创 2018-08-30 10:03:45 · 7856 阅读 · 0 评论 -
强化学习实战(四)基于强化学习的倒立摆控制策略Matlab实现(附代码) 二刷
我的微信公众号名称:AI研究订阅号微信公众号ID:MultiAgent1024公众号介绍:主要研究强化学习、计算机视觉、深度学习、机器学习等相关内容,分享学习过程中的学习笔记和心得!期待您的关注,欢迎一起学习交流进步! 本文将之前的一篇基于强化学习的倒立摆控制策略Matlab实现文章再次进行了扩充。问题描述 大多数先进控制技术都需要对过程及其环境有较深的了解,一般用拉普拉斯变换或...原创 2020-01-20 21:48:21 · 7822 阅读 · 96 评论 -
强化学习实战(六)【Windows安装星际争霸Ⅱ 强化学习环境教程】
1.安装cuda、cudnn、tensorflow-gpu。可以参考文章。2.下载安装星际争霸。可以自行百度一下怎么安装。并添加系统变量或者去E:\install\anaconda\envs\starcraft\Lib\site-packages\pysc2\run_configs\platforms.py这个文件下面看看改改相关参数:可参考博客。添加完了系统变量之后需...翻译 2021-01-25 19:49:57 · 4969 阅读 · 2 评论 -
强化学习实战(七)【Windows安装星际争霸Ⅰ 强化学习环境教程】
在官方的安装教程当中是用两台机器来装的,星际争霸装在windows上面,linux基于 ZeroMQ通信获取windows的星际争霸数据并用于处理。本文是基于这篇文章,以及官方文档一起进行的安装。有些许不同之处。1.安装 StarCraft (1.16.1): 下载文件(zip),解压缩到任意目录下即可,解压缩目录记为 STARCRAFT。在当前目录下运行setup.exe文件。如果你需...原创 2020-03-04 21:02:52 · 3585 阅读 · 2 评论 -
强化学习实战(八) Ubuntu下Mujoco安装记录
文章目录注册安装mujoco_py参考注册在官网注册https://www.roboti.us/license.html,选用教育邮箱免费注册那一栏。填写相关的基本信息。填写好所有信息之后点击Request license按钮,之后等待接收邮件,邮件里面会有Account Number。 之后开启漫长的等待过程。之后需要填写接收到的Account Number到下图所示的框框中。 Computer ID运行文本框右侧对应平台的应用程序自动获得,命令如下:chmod +x geti翻译 2020-10-26 17:02:02 · 1674 阅读 · 11 评论 -
强化学习实战(九) Linux下配置星际争霸Ⅱ环境
文章目录安装SMAC安装StarCraft II下载SMAC地图参考安装SMAC SMAC是基于暴雪公司星际争霸Ⅱ做的一个多智能体环境,官方GitHub链接为:https://github.com/oxwhirl/smac。 安装之前更新一下pip(不更新的话会报一个错误):ERROR: Command errored out with exit status 128: git clone -q https://github.com/oxwhirl/smac.git /tmp/pip-req-b原创 2021-05-25 09:45:20 · 6531 阅读 · 8 评论