![](https://img-blog.csdnimg.cn/20201014180756930.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
强化学习
文章平均质量分 87
薛定谔的炼丹炉!
这个作者很懒,什么都没留下…
展开
-
影响PPO算法性能的10个关键技巧(附PPO算法简洁Pytorch实现)
0.引言PPO算法(Proximal Policy Optimization)是目前深度强化学习(DRL)领域,最广泛应用的算法之一。然而在实际应用的过程中,PPO算法的性能却受到多种因素的影响。本文总结了影响PPO算法性能的10个关键技巧,并通过实验结果的对比,来探究各个trick对PPO算法性能的影响。同时,我们将代码开源在了github上,分别提供了PPO算法的离散动作空间实现和连续动作空间实现。转载 2024-01-18 16:08:13 · 1604 阅读 · 1 评论 -
(专栏,满满踩坑干货)深度强化学习落地方法论(7)—— 训练篇
经过前后近一个月零零星星的整理,这篇又臭又长的训练篇终于快要结束了,连我自己都觉得枯燥透顶,如果有哪位读者能坚持读到这里,我敬你是个勇士!我也时常怀疑写这些东西到底有没有意义,毕竟包括DRL在内的深度学习调参技巧往往琐碎而不成体系,很难总结得面面俱到,更何况新算法还在源源不断地涌现,旧的知识经验正在迅速“贬值”,就像现在有了Soft Actor-Critic,谁还用DDPG啊。最重要的是,假如读者不经过亲身实践,直接看这些干巴巴的总结,作用真心不大。对我自己来说,就权当备忘吧~转载 2024-01-18 14:32:25 · 125 阅读 · 0 评论 -
【李宏毅深度强化学习笔记】—8、Imitation Learning
【李宏毅讲了reward很稀疏的情况,但是在实际中,可能问题还会更进一步:很多场景是很难有一个明确的reward甚至没有reward。所以需要很厉害的agent或者直接由人来示范的资料,让agent跟着做。本文会讲两个。转载 2023-07-04 10:54:07 · 220 阅读 · 0 评论 -
【李宏毅深度强化学习笔记】—7、Sparse Reward
【李宏毅在强化学习的训练过程中,当环境的reward很少时(指出现的次数),这样对agent的训练是很不利的。比如,让一个机器人拿起螺丝刀,再把螺丝拧进去才能得到reward。这一系列操作组合起来对于一个一开始什么都不懂的机器人无疑是很难的,因为它一开始不管做什么动作都不会得到reward,即便有exploration也只有极小的几率能成功获得reward。所以下面介绍几种方法来处理这种的方法。转载 2023-07-04 10:10:36 · 154 阅读 · 0 评论 -
【李宏毅深度强化学习笔记】—6、Actor-Critic、A2C、A3C、Pathwise Derivative Policy Gradient
【李宏毅G表示在采取一直玩到游戏结束所得到的cumulated reward。这个值是不稳定的,因为在某一个state采取同一个action,最后的结果不一定相同。因为state的变化也是有随机性的。虽然经过多次实验后,可能会发现G最后会变成一个比较稳定的分布,那么理论上收集足够多的数据就能解决这一问题。但是因为policy gradient是一个on policy的方法,每次更新参数后又要重新收集数据。如果每次都要收集非常多的数据那也会造成效率的低下。转载 2023-07-03 18:33:15 · 168 阅读 · 0 评论 -
【李宏毅深度强化学习笔记】—5、Q-learning用于连续动作 (NAF算法)
原文链接:https://blog.csdn.net/ACL_lihan/article/details/104076938【李宏毅深度强化学习笔记】1、策略梯度方法(Policy Gradient)【李宏毅深度强化学习笔记】2、Proximal Policy Optimization (PPO) 算法【李宏毅深度强化学习笔记】3、Q-learning(Basic Idea)【李宏毅深度强化学习笔记】4、Q-learning更高阶的算法【李宏毅深度强化学习笔记】5、Q-learning用于连续动作 (NAF转载 2023-07-03 16:36:42 · 74 阅读 · 0 评论 -
【李宏毅深度强化学习笔记】—4、Q-learning更高阶的算法
【李宏毅。转载 2023-07-03 16:14:09 · 50 阅读 · 0 评论 -
【李宏毅深度强化学习笔记】—3、Q-learning(Basic Idea)
原文链接:https://blog.csdn.net/ACL_lihan/article/details/104041905【李宏毅深度强化学习笔记】1、策略梯度方法(Policy Gradient)【李宏毅深度强化学习笔记】2、Proximal Policy Optimization (PPO) 算法【李宏毅深度强化学习笔记】3、Q-learning(Basic Idea)(本文)【李宏毅深度强化学习笔记】4、Q-learning更高阶的算法【李宏毅深度强化学习笔记】5、Q-learning用于连续动作转载 2023-07-03 15:07:33 · 61 阅读 · 0 评论 -
【李宏毅深度强化学习笔记】—2、Proximal Policy Optimization算法(PPO)
原文链接:https://blog.csdn.net/ACL_lihan/article/details/103989581补充:问题:PPO2的损失函数,也就是奖励的平均值函数是怎么通过约束重要性权重让θ和θk的输出分布不至于差距很大的?也就是让其不至于差太多,导致off-policy失效理解:当A>0时候,根据损失函数(奖励函数平均值),此时会提高pθ(s,a)的概率,所以设置上限,不让pθ(s,a)超过pθk(s,a)太多(1+ξ),如果超过了,则会被截断到1+ξ,则损失函数的值不变了,也就没转载 2023-06-30 16:17:32 · 317 阅读 · 0 评论 -
【李宏毅深度强化学习笔记】—1、策略梯度方法(Policy Gradient)
1、介绍了actor、environment、reward function2、在深度强化学习中,policy可以看成是参数为的网络,输入state,输出采取各种action的概率3、一轮游戏叫做episode4、trajectory={s1,a1,s2,a2,……},在给定policy的参数的情况下,可以计算每一个存在的概率。5、总的expected reward=6、使用policy gradient ascend求 expected reward的最大值。转载 2023-06-30 15:56:23 · 570 阅读 · 0 评论 -
DPPO算法(顺便对比PG、TRPO、PPO、PPO2以及A3C算法)
强化学习(9):TRPO、PPO以及DPPO算法:https://blog.csdn.net/zuzhiang/article/details/103650805DPPO深度强化学习算法实现思路(分布式多进程加速): https://blog.csdn.net/weixin_43145941/article/details/116764574[DPPO]:再看我的影分身之术(附代码及代码分析):https://zhuanlan.zhihu.com/p/111346592PPOTRPOPPO(P原创 2022-05-12 11:08:25 · 4555 阅读 · 1 评论 -
(详细)强化学习--贝尔曼方程
原文链接:https://zhuanlan.zhihu.com/p/86525700我有一个疑问,就是在推导过程中,状态s不是变量,st 是t阶段的状态相当于是一个常数,那么为什么st=s,常数在等号的左边,变量在等号的右边?这里的st表示的是t时刻对应的状态,状态可能有多种,但是这里设t时刻的状态为s,所以st=s。比如说放学回家,你一共有三种状态,写作业、看电视、打游戏,在某一时刻(这里可以对应t)你的状态是什么,即st得状态。st得状态可以是写作业(状态s1)、看电视(状态s2)、打游戏(状态s3转载 2022-03-09 10:58:09 · 2822 阅读 · 0 评论 -
argparse模块基本用法
原文链接:https://zhuanlan.zhihu.com/p/111010774action=“store_true”这个怎么理解?有了action这一参数,就相当于把–train参数设成了一个“开关”。我们是不需要给这个开关传递具体的值的,只需要“拨一下”这个开关就行了。action=“store_true”,就是说当拨动了这个“开关”,就将参数–train存储为True,否则参数会存储为False,因为我们设置的default=False小番外:argparse模块基本用法由于本专栏参考了转载 2022-03-08 17:56:08 · 499 阅读 · 1 评论 -
Qlearning算法(理论+实战)
原文链接:https://zhuanlan.zhihu.com/p/110410276Qlearning的基本思路回顾在上一篇,我们了解了Qlearning和SARSA算法的基本思路和原理。 张斯俊:[理论篇]怎样直观理解Qlearning算法?229 赞同 · 33 评论文章这一篇,我们以tensorflow给出的强化学习算法示例代码为例子,看看Qlearning应该如何实现。 https://github.com/tensorlayer/tensorlayer/blob/master/examples转载 2022-03-08 17:24:27 · 3923 阅读 · 0 评论 -
强化学习之模仿学习
原文链接:https://blog.csdn.net/weixin_37895339/article/details/82863379前文是一些针对IRL,IL综述性的解释,后文是针对《Generative adversarial imitation learning》文章的理解及公式的推导。通过深度强化学习,我们能够让机器人针对一个任务实现从0到1的学习,但是需要我们定义出reward函数,在很多复杂任务,例如无人驾驶中,很难根据状态特征来建立一个科学合理的reward。人类学习新东西有一个重要的转载 2022-03-02 16:11:51 · 1986 阅读 · 0 评论 -
优势函数(Advantage Function)及其估计值GAE
原文链接:https://blog.csdn.net/huibiannihao/article/details/106486022 目录 什么是优势函数 归一化、激活函数等学习问题 为什么要使用优势函数 常见的优势函数 什么是优势函数 优势函数表达在状态s下,某动作a相对于平均而言的优势。 从数量关系来看,就是随机变量相对均值的偏差。 使用优势函数是深度强化学习极其重要的一种策略,尤其对于转载 2022-02-20 14:52:50 · 2452 阅读 · 0 评论 -
(详细)分层强化学习之HIRO
原文链接:https://blog.csdn.net/sinat_37422398/article/details/113085165 \quad </span><span class="katex-html"><span class转载 2022-02-14 10:38:52 · 1052 阅读 · 0 评论 -
分层强化学习之HIRO
原文链接:https://zhuanlan.zhihu.com/p/46946800HIRO是HIerarchical Reinforcement learning with Off-policy correction的缩写。原文传送门:Nachum, Ofir, et al. "Data-Efficient Hierarchical Reinforcement Learning." arXiv preprint arXiv:1805.08296 (2018). 特色:提出了一种general并且off-转载 2022-02-14 10:13:48 · 431 阅读 · 0 评论 -
(对照论文的图片看,直接看算法部分)[译]Hierarchical Macro Strategy Model for MOBA Game AI(王者荣耀)--翻译
原文链接:https://blog.csdn.net/baidu_36669549/article/details/86178446 Hierarchical Macro Strategy Model for MOBA Game AI MOBA游戏AI的分层宏观策略模型 摘要 游戏AI的下一个挑战在于实时策略(RTS)游戏。 RTS游戏提供部分可观察的游戏环境,其中虚拟玩家agents在比GO大得多的动作空间转载 2022-02-09 10:24:49 · 292 阅读 · 0 评论 -
(最后那部分自己总结) 1812_AAAI_腾讯_Hierarchical Macro Strategy Model for MOBA Game AI
给不想看后面详细信息的人的说明: 这篇文章说明了王者荣耀18年年底公布的新的AI系统中的一些重要模块。其实要完成一个完整都AI系统肯定还有很多其他的小模块需要研究。AI的输入是游戏画面加一些UI上面可以直接读出的信息(玩家血量,击杀数等),输出是游戏操作的序列。也就是人怎么操作,AI就怎么操作。比如人要在某个地方放置某个技能,AI也需要通过控制虚拟手柄来完成,而不是调用一个游戏内部的API来完成。至于现在王者荣...原创 2022-02-09 10:07:17 · 2445 阅读 · 0 评论 -
(环境跳帧)OpenAI gym Atari游戏的环境设置
原文链接:https://blog.csdn.net/clksjx/article/details/104053216 Breakout-v0, Breakout-v4, BreakoutNoFrameskip-v4和BreakoutDeterministic-v4的区别 v0和转载 2022-01-29 17:11:57 · 1524 阅读 · 0 评论 -
(挺详细分层强化学习之Go-Explore - First return then explore 论文笔记
原文链接:https://zhuanlan.zhihu.com/p/356231850#引引言作为工作以来写的第一篇相对认真的论文分析笔记,感觉稍微重拾了原来读论文和算法研究时的一些激情。文章正文篇幅不长,核心思想阐述的较为清晰,但是有很多补充资料和一些偏工程性的trick,如果想要完全吃透还是需要多花一些时间。论文中对很多参数和细节都有详细说明,且附有源码地址,感兴趣的小伙伴可以结合源码进行深入分析或在其他场景对算法进行探索性应用。#引言在强化学习算法中,奖励函数(Reward function)用于引转载 2022-01-29 11:02:45 · 780 阅读 · 0 评论 -
(还不错)分层强化学习之Go-Explore
原文链接:https://zhuanlan.zhihu.com/p/58053501Go-Explore是uber团队开发的算法,直观的意思是走到最好的状态(Go),然后从这个状态开始探索(Explore)。原文传送门Ecoffet, Adrien, et al. "Go-Explore: a New Approach for Hard-Exploration Problems." arXiv preprint arXiv:1901.10995 (2019).特色Go-Explore旨在解决探索困难(ha转载 2022-01-28 17:12:29 · 574 阅读 · 0 评论 -
(详细)分层强化学习-Random Network Distillation(RND)
原文链接:https://zhuanlan.zhihu.com/p/146309991EXPLORATION BY RANDOM NETWORK DISTILLATION RND这类文章是基于强化学习在解决Atari游戏中蒙德祖玛的复仇的困境提出的。由于在这类游戏中存在非常稀疏的奖励,Agent在探索利用上存在很大的问题。RND也是第一个使用与人类平等的RL算法在蒙特祖玛的复仇上获得人类水平成绩的算法。 为提升稀疏奖励情况下的探索利用,之前有很多类似Curiosity、coun转载 2022-01-27 15:48:35 · 2071 阅读 · 0 评论 -
(总结算法流程)分层强化学习之Random Network Distillation(RND,随机网络蒸馏)
RND算法流程 原文链接:https://www.cnblogs.com/blog-hfg/articles/10452552.html总结:1.采用随机生成的固定网络作为目标网络,另一网络不断最小化与其的误差,从而达到评估观察的新颖性。2.介绍了一种灵活地结合内在和外在奖励的方法。abstract我们为深度强化学习方法引入了一个探索方法,该方法易于实现,并且为执行的计算增加了最小的开销。奖励是神经网络预测由固定随机初始化神经网络给出的观察特征的误差。我们还介绍了一种灵活地结合内在和外在奖励转载 2022-01-27 14:50:30 · 1465 阅读 · 0 评论