![](https://img-blog.csdnimg.cn/20201014180756754.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
强化学习
lxlong89940101
这个作者很懒,什么都没留下…
展开
-
window下运行星际争霸pymarl步骤链接
1.安装https://zhuanlan.zhihu.com/p/3768369402. 问题1-缺失包的问题安装相应缺失的包3.问题2-(报错 之 from typing import OrderedDict ImportError: cannot import name ‘OrderedDict‘ from ‘typing‘)https://blog.csdn.net/qq_41368074/article/details/1194914834.问题3-git的问题(Import原创 2021-09-06 12:27:47 · 484 阅读 · 0 评论 -
状态值函数+动作值函数
原创 2019-11-17 13:27:29 · 3509 阅读 · 0 评论 -
强化学习环境介绍
https://www.cnblogs.com/devilmaycry812839668/p/10228987.htmlhttps://blog.csdn.net/weixin_41362649/article/details/84798175原创 2019-11-08 14:29:08 · 1062 阅读 · 0 评论 -
强化学习算法分类总结
知识总结:https://www.jianshu.com/p/a04a8c7bee98A2C,A3C,PPO1,PPO2 :策略函数的优化(πθ(a|s))Q-learing : 动作值函数的优化(Qθ(s,a))DDPG,SAC :结合策略函数和动作值函数(πθ(a|s)+Qθ(s...原创 2019-10-31 21:31:59 · 945 阅读 · 0 评论 -
on-policy和off-policy区别
Policy Optimization 通常是on-policy的,也就是每次更新策略采用最新策略产生的数据。Q-Learning 通常是Off-Policy的,这就意味着训练的数据可以是训练期间任意时刻的数据。...原创 2019-10-31 20:58:17 · 905 阅读 · 0 评论 -
强化学习的开源平台
Open Source Reinforcement Learning PlatformsOpenAI gym - A toolkit for developing and comparing reinforcement learning algorithms OpenAI universe - A software platform for measuring and training an...原创 2019-06-12 15:14:56 · 1490 阅读 · 0 评论 -
A3C(Asynchronous advantage actor-critic )/异步优势actor-critic 算法
回忆下之前的DQN算法,为了方便收敛使用了经验回放的技巧。那么我们的Actor-Critic是不是也可以使用经验回放的技巧呢?当然可以!不过A3C更进一步,还克服了一些经验回放的问题。经验回放有什么问题呢? 回放池经验数据相关性太强,用于训练的时候效果很可能不佳。举个例子,我们学习下棋,总是和同一个人下,期望能提高棋艺。这当然没有问题,但是到一定程度就再难提高了,此时最好的方法是...原创 2019-06-05 21:02:10 · 2116 阅读 · 0 评论 -
强化学习算法
DQN:离散化的低纬动作空间DPPG:深度确定性策略梯度算法,可以用来解决连续的动作空间上的深度强化学习问题Q-learing :离散,低纬的动作空间1、强化学习基本算法马尔科夫决策过程 策略迭代 价值迭代 泛化迭代2、基于值函数的强化学习方法基于蒙特卡罗方法强化学习方法 基于时间差分的强化学习方法 基于值函数的强化学习方法(DQN,Q-learing,Do...原创 2019-05-29 09:44:59 · 771 阅读 · 0 评论 -
强化学习State和Observation的区别
State和Observation区别:State是Environment的私有表达,我们往往不知道不会直接到的。在 MDP 中,当前状态State(Markov state)包含了所有历史信息,即将来只和现在有关,与过去无关,因为现在状态包含了所有历史信息。举个例子,在一个遵循牛顿第二定律的世界里,我们随意抛出一个小球,某一时刻t知道了小球的速度和加速度,那么t之后的小球的位置都可以...原创 2019-10-11 20:16:05 · 5767 阅读 · 3 评论