![](https://img-blog.csdnimg.cn/20201014180756926.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
强化学习
文章平均质量分 90
微笑小星
强化学习的信仰者,游戏开发的爱好者。
展开
-
强化学习中的自我博弈(self-play)
但随着训练的进行,探索奖励应当逐渐衰减为0。第二是对手抽样,智能体在面对过强或过弱的对手时,训练都会难以取得成效,因此环境中需要存储对手不同时期的训练版本,让较弱的一方有机会获胜,较弱的一方策略提升的同时会反过来促进较强一方变得更强。为了判断智能体的强弱,使自我博弈使用水平相近的智能体进行对抗训练,根据ML-Agents中的做法,较好的解决方式是引入ELO评级系统,这是一种计算零和游戏中两个玩家之间相对水平的方法。也就是说,对方的智能体在己方训练的时候相当于环境的一部分,对手的策略也极大影响了自身的策略。原创 2024-06-21 23:47:13 · 774 阅读 · 0 评论 -
多智能体强化学习算法MA-POCA
它在集中式训练,分布式执行的AC框架上提出了两个改进点:一是针对数量不确定的智能体组合,使用了注意力机制的特殊神经网络结构,可以处理不定量输入,并且代替了现有的COMA算法全耦合的吸收状态。但是,当单个代理的当前行为导致智能体本身的行为终止(例如自我牺牲)时,它已被排除在环境之外,它不能再观察到队伍获得奖励时的环境状态,也不再能够获得小组后来可能获得的奖励。它是经典的的中心化训练和非中心化执行的算法,即在训练的时候,Critic不仅需要知道该智能体的动作信息,还需要知道其他智能体的动作信息,才能做出评判。原创 2024-06-20 21:40:07 · 1116 阅读 · 0 评论 -
强化学习PPO代码讲解
查看代码对于算法的理解直观重要,这使得你的知识不止停留在概念的层面,而是深入到应用层面。代码采用了简单易懂的强化学习库PARL,对新手十分友好。原创 2022-05-14 12:40:42 · 7050 阅读 · 8 评论 -
强化学习入门级实践教学
参考视频:https://www.bilibili.com/video/BV1yv411i7xd代码下载:https://github.com/PaddlePaddle/PARL可以先阅读我的文章强化学习纲要,本文针对强化学习的入门级讲解。代码主要参考强化学习算法框架库:PARL资料推荐书籍:《Reinforcement Learning: An Introduction》视频:David Silver经典强化学习公开课、UC Berkeley CS285、斯坦福CS234经典论文:原创 2022-03-20 21:22:56 · 3831 阅读 · 5 评论 -
AI球球大作战:Go-Bigger多智能体决策智能挑战赛
比赛网页:https://www.datafountain.cn/competitions/549repo:https://github.com/opendilab/Gobigger-Explore/入门篇赛题说明本次竞赛采用 Go-Bigger 作为游戏环境。Go-Bigger 是一款多人组队竞技游戏。更多细节请参考 Go-Bigger 文档。在游戏中,每支竞赛参赛队伍控制游戏中一支队伍(每支队伍由多个玩家组成)。竞赛参赛队伍需要通过提交智能体的方式,来对游戏中的某个队伍及其所包含的玩家进行控制,原创 2022-03-14 23:15:50 · 1775 阅读 · 3 评论 -
强化学习之stable_baseline3详细说明和各项功能的使用
stable-baseline3是一个非常受欢迎的深度强化学习工具包,能够快速完成强化学习算法的搭建和评估,提供预训练的智能体,包括保存和录制视频等等,是一个功能非常强大的库。详情可以查看官网:https://stable-baselines3.readthedocs.io/en/master/原创 2022-02-24 16:02:15 · 26800 阅读 · 6 评论 -
强化学习落地挑战赛:学习指定平等的促销策略(训练流程)
赛事官方入口:https://codalab.lisn.upsaclay.fr/competitions/823#learn_the_details-overview深度强化实验室的中文说明:http://deeprl.neurondance.com/d/583-aihttp://deeprl.neurondance.com/d/584-ai本文的内容基于前面的文章:赛题分析:AI决策•强化学习落地挑战赛——学习指定平等的促销策略这里直接讲述训练过程。原创 2022-02-18 22:35:00 · 592 阅读 · 5 评论 -
offline强化学习之Revive SDK的使用
Revive 用于构建仅基于离线数据的智能决策系统。离线强化学习,即在不与环境进一步交互的情况下从固定数据集中学习的任务,构成了 Revive 的核心。它有望将历史数据集转变为强大的决策引擎。离线强化学习方法探索了从现有数据中提取具有最大效用的策略的可能性,从而使许多关键决策领域的策略优化过程自动化,从机械系统的优化控制,提高能源部门的能源效率,到更广泛的影响促进科学研究。原创 2022-02-11 12:11:00 · 3991 阅读 · 3 评论 -
赛题分析:AI决策•强化学习落地挑战赛——学习指定平等的促销策略
现在商家想要将促销策略从个性化促销转换为平等化促销,执行的方式是发放优惠券,我们可以通过控制优惠券的数量和折扣来达成目标,通过对不同的消费者投放不同数量不同折扣的消费券来达成目的。对于非平等化促销策略,它输入单个用户状态,输出给单个用户发放的促销动作,因此每个人的促销动作可以各不相同。要学习一个平等化促销策略,它输入的是全体用户的状态,输出一个给全体用户发放相同的促销动作。原创 2022-01-02 17:23:07 · 1391 阅读 · 4 评论 -
模仿学习与强化学习的结合(原理讲解与ML-Agents实现)
模仿学习与强化学习结合能产生超级强悍的训练效果,是训练困难任务的必备框架原创 2021-12-27 12:36:15 · 13435 阅读 · 12 评论 -
ML-Agents案例之“排序算法超硬核版”
本案例源自ML-Agents官方的示例,Github地址:https://github.com/Unity-Technologies/ml-agents,本文是详细的配套讲解。本文基于我前面发的两篇文章,需要对ML-Agents有一定的了解,详情请见:Unity强化学习之ML-Agents的使用、ML-Agents命令及配置大全。我前面的相关文章有:ML-Agents案例之CrawlerML-Agents案例之推箱子游戏ML-Agents案例之跳墙游戏ML-Agents案例之食物收集者ML-A原创 2021-12-15 09:27:26 · 3503 阅读 · 1 评论 -
ML-Agents案例之看图配对
本案例源自ML-Agents官方的示例,Github地址:https://github.com/Unity-Technologies/ml-agents,本文是详细的配套讲解。本文基于我前面发的两篇文章,需要对ML-Agents有一定的了解,详情请见:Unity强化学习之ML-Agents的使用、ML-Agents命令及配置大全。我前面的相关文章有:ML-Agents案例之CrawlerML-Agents案例之推箱子游戏ML-Agents案例之跳墙游戏ML-Agents案例之食物收集者ML-A原创 2021-12-13 20:07:15 · 4553 阅读 · 0 评论 -
ML-Agents案例之机器人学走路
本案例源自ML-Agents官方的示例,Github地址:https://github.com/Unity-Technologies/ml-agents,本文是详细的配套讲解。本文基于我前面发的两篇文章,需要对ML-Agents有一定的了解,详情请见:Unity强化学习之ML-Agents的使用、ML-Agents命令及配置大全。我前面的相关文章有:ML-Agents案例之CrawlerML-Agents案例之推箱子游戏ML-Agents案例之跳墙游戏ML-Agents案例之食物收集者ML-A原创 2021-12-12 20:22:37 · 3723 阅读 · 2 评论 -
ML-Agents案例之蠕虫
本案例源自ML-Agents官方的示例,Github地址:https://github.com/Unity-Technologies/ml-agents,本文是详细的配套讲解。本文基于我前面发的两篇文章,需要对ML-Agents有一定的了解,详情请见:Unity强化学习之ML-Agents的使用、ML-Agents命令及配置大全。我前面的相关文章有:ML-Agents案例之CrawlerML-Agents案例之推箱子游戏ML-Agents案例之跳墙游戏ML-Agents案例之食物收集者ML-A原创 2021-12-12 12:28:14 · 5178 阅读 · 0 评论 -
强化学习中的好奇心奖励机制
参考视频:李宏毅强化学习系列参考论文:Large-Scale Study of Curiosity-Driven LearningCuriosity-driven Exploration by Self-supervised PredictionCuriosity-driven Exploration for Mapless Navigation with Deep Reinforcement LearningExploration by Random Network Distillation参原创 2021-12-03 10:17:42 · 3503 阅读 · 0 评论 -
ML-Agents案例之金字塔
本案例源自ML-Agents官方的示例,Github地址:https://github.com/Unity-Technologies/ml-agents,本文是详细的配套讲解。本文基于我前面发的两篇文章,需要对ML-Agents有一定的了解,详情请见:Unity强化学习之ML-Agents的使用、ML-Agents命令及配置大全。我前面的相关文章有:ML-Agents案例之CrawlerML-Agents案例之推箱子游戏ML-Agents案例之跳墙游戏ML-Agents案例之食物收集者ML-A原创 2021-12-03 10:14:57 · 5962 阅读 · 0 评论 -
ML-Agents案例之地牢逃脱
本案例源自ML-Agents官方的示例,Github地址:https://github.com/Unity-Technologies/ml-agents,本文是详细的配套讲解。本文基于我前面发的两篇文章,需要对ML-Agents有一定的了解,详情请见:Unity强化学习之ML-Agents的使用、ML-Agents命令及配置大全。我前面的相关文章有:ML-Agents案例之CrawlerML-Agents案例之推箱子游戏ML-Agents案例之跳墙游戏ML-Agents案例之食物收集者ML-A原创 2021-11-30 01:13:23 · 3429 阅读 · 3 评论 -
Unity人工智能之不断自我进化的五人足球赛
本文基于我前面发的两篇文章,需要对ML-Agents有一定的了解,详情请见:Unity强化学习之ML-Agents的使用、ML-Agents命令及配置大全。我前面的相关文章有:ML-Agents案例之CrawlerML-Agents案例之推箱子游戏ML-Agents案例之跳墙游戏ML-Agents案例之食物收集者ML-Agents案例之双人足球本案例为本文根据双人足球基础之上尝试改进的五人足球。本案例使用了Unity的ML-Agents组件开发而成,这里使用了多智能体强化学习的算法MA-POC原创 2021-11-24 22:03:59 · 6032 阅读 · 12 评论 -
ML-Agents案例之双人足球
本案例源自ML-Agents官方的示例,Github地址:https://github.com/Unity-Technologies/ml-agents,本文是详细的配套讲解。本文基于我前面发的两篇文章,需要对ML-Agents有一定的了解,详情请见:Unity强化学习之ML-Agents的使用、ML-Agents命令及配置大全。我前面的相关文章有:ML-Agents案例之CrawlerML-Agents案例之推箱子游戏ML-Agents案例之跳墙游戏ML-Agents案例之食物收集者对称环境原创 2021-11-17 17:42:52 · 4545 阅读 · 4 评论 -
ML-Agents案例之食物收集者
本案例源自ML-Agents官方的示例,Github地址:https://github.com/Unity-Technologies/ml-agents,本文是详细的配套讲解。本文基于我前面发的两篇文章,需要对ML-Agents有一定的了解,详情请见:Unity强化学习之ML-Agents的使用、ML-Agents命令及配置大全。我前面的相关文章有:ML-Agents案例之CrawlerML-Agents案例之推箱子游戏ML-Agents案例之跳墙游戏环境说明环境中存在有多个智能体,他们的任原创 2021-11-16 10:42:46 · 3170 阅读 · 3 评论 -
ML-Agents案例之跳墙游戏
本案例源自ML-Agents官方的示例,Github地址:https://github.com/Unity-Technologies/ml-agents本文基于我前面发的两篇文章,需要对ML-Agents有一定的了解,详情请见:Unity强化学习之ML-Agents的使用、ML-Agents命令及配置大全。本文主要的知识点是课程学习(Curriculum Learning)以及Model Override脚本的使用。参考资料:ML-Agents(九)Wall Jump环境说明 本案原创 2021-11-11 17:36:33 · 4117 阅读 · 5 评论 -
ML-Agents案例之推箱子游戏
本案例源自ML-Agents官方的示例,Github地址:https://github.com/Unity-Technologies/ml-agents本文基于我前面发的两篇文章,需要对ML-Agents有一定的了解,详情请见:Unity强化学习之ML-Agents的使用、ML-Agents命令及配置大全。参考资料:ML-Agents(八)PushBlock、训练ML-Agents玩躲避球、ML-Agents 2.0:合作行为训练游戏目标:智能体把白色的方块推到指定的绿色区域为游戏胜利。推箱子游戏原创 2021-11-10 15:55:26 · 9157 阅读 · 14 评论 -
ML-Agents案例之Crawler
本案例源自ML-Agents官方的示例,Github地址:https://github.com/Unity-Technologies/ml-agents本文基于我前面发的两篇文章,需要对ML-Agents有一定的了解,详情请见:Unity强化学习之ML-Agents的使用、ML-Agents命令及配置大全。参考资料:ML-Agents(十)Crawler上一次运行的3DBall的任务比较简单,只需要把小球停在方块上方,输入维度低,奖励函数设置较简单,因此很快就能训练出比较好的效果。接下来训练一个更具有原创 2021-11-09 19:32:11 · 3882 阅读 · 0 评论 -
ML-Agents命令及配置大全
关于ML-Agents插件的入门,请查看我前面的博文: Unity强化学习之ML-Agents的使用本文内容基于ML-Agents的官方文档:Training ML-Agents以及Training Configuration File原创 2021-11-03 10:39:02 · 7540 阅读 · 11 评论 -
Unity强化学习之ML-Agents的使用
ML-Agents是游戏引擎Unity3D中的一个插件,也就是说,这个软件的主业是用来开发游戏的,实际上,它也是市面上用得最多的游戏引擎之一。而在几年前随着人工智能的兴起,越来越多的强化学习环境被开发出来,例如总所周知的OpenAI的Gym,还有许多实验室都采用的星际争霸2环境来进行多智能体强化学习的研究。作为一个对游戏开发和强化学习都非常感兴趣的人,了解到了ML-Agents这款插件,使得能够自己创造一个独一无二,,与众不同,又充,与众不同,又充满智慧的游戏AI成为可能。原创 2021-11-03 10:25:24 · 19952 阅读 · 23 评论 -
多任务深度强化学习入门
理论概述多任务深度强化学习,英文Multi-Task Deep Reinforcement Learning ,简称MTDRL或MTRL。于MARL不同,它可以是单智能体多任务的情况,也可以是多智能体多任务的情况。现在的深度强化学习领域虽然在很多特定任务上有着超越人类的表现,然而这些算法的共同特点是,一次只能训练一个任务,如果想要适应一个新任务,就需要训练一个全新的智能体,也就是说,每个智能体只能解决它被训练的一个任务。在未来,我们的目标不仅仅是停留在构建多个分别擅长不同任务的简单智能体,而是要构建单原创 2021-11-02 10:00:00 · 5509 阅读 · 0 评论 -
多智能体强化学习之QMIX
论文:QMIX: Monotonic Value Function Factorisation for Deep Multi-Agent Reinforcement Learning参考博客:多智能体强化学习入门(五)——QMIX算法分析、多智能体强化学习入门QMIX参考书籍:《深度强化学习学术前沿与实战应用》MARL中如何表示和使用动作价值函数使得系统达到一个均衡稳态是多智能体系统的目标。IQL让每个智能体单独定义一个函数QaQ_aQa。这种方法不能明确表示智能体之间的相互作用,并且可能不会收敛原创 2021-10-28 00:53:00 · 3240 阅读 · 0 评论 -
多智能体强化学习之MADDPG
论文原文:Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments论文翻译:MADDPG翻译阅读本文需要强化学习基础,可以参考我前面的文章:多智能体强化学习入门关于MADDPG强化学习算法的基础DDPG的可以查看我的文章:强化学习实践教学对于MADDPG推荐的博客有:探秘多智能体强化学习-MADDPG算法原理及简单实现,里面包含代码实现。github代码(基于Tensorflow):https://github.原创 2021-10-26 20:19:23 · 3675 阅读 · 0 评论 -
多智能体强化学习入门
参考文章:万字长文:详解多智能体强化学习的基础和应用 、多智能体强化学习入门(一)——基础知识与博弈推荐文章:多智能体强化学习路线图 (MARL Roadmap)推荐综述论文:An Overview of Multi-Agent Reinforcement Learning from Game Theoretical Perspective参考书籍:《深度强化学习学科前沿与实战应用》多智能体强化学习(Multi-agent RL简称MARL),是由RL和多智能体系统结合而成的新领域。多智能体系统起源原创 2021-10-24 13:08:53 · 20029 阅读 · 2 评论 -
分布式强化学习之IMPALA
该方法及其它的变体一直主宰MTDRL,是AlphaStar所采用的基本训练方法,这就是目标性能最佳的异步RL框架————IMPALA!原创 2021-10-15 00:18:14 · 1211 阅读 · 2 评论 -
分布式强化学习之D4PG
D4PG全称Distributed Distributional Deterministic Policy Gradient,是总所周知的DDPG的分布式版本。因此学习D4PG之前,需要了解DDPG。首先DDPG是DQN在连续空间的版本,DQN只能处理离散动作空间的问题,对于连续动作空间是无法处理的,因此我们引入了DDPG。DDPG是actor-critic的结构,并且借鉴了DQN的技巧,也就是目标网络和经验回放。因此DDPG有四个网络,一个actor,一个Target-actor,一个critic,一个原创 2021-10-14 17:28:53 · 2627 阅读 · 2 评论 -
强化学习纲要(周博磊课程)
周博磊强化学习课程的学习笔记原创 2021-10-11 10:39:25 · 911 阅读 · 0 评论 -
分布式强化学习(Distributed RL)入门
一般情况下我们做的论文课题都是小规模的,使用的都是一个相对较小的数据库,因此使用单机系统基本可以完成任务。但现实生活中的数据往往是巨量的,我们需要一个完整的分布式系统来处理这种大规模的数据。原创 2021-10-11 10:24:37 · 7071 阅读 · 2 评论 -
model-based强化学习入门
参考视频:周博磊强化学习纲要阅读本文前需要对强化学习model-free领域有一定的了解,可以查看我之前的文章:《强化学习实践教学》,《强化学习纲要(周博磊课程)》之前介绍的算法例如DQN,DDPG,PPO都是**model-free(无模型)**的,这也是比较多人的研究领域,这些算法是智能体直接和环境互动获得数据,不需要拟合环境模型,智能体对环境的认知只能通过和环境不断大量的交互来实现。这样做的优点是通过无数次与环境的交互可以保证智能体得到最优解。往往在游戏这样的没有采样成本的环境中都可以用model原创 2021-10-09 23:55:22 · 4102 阅读 · 0 评论 -
强化学习之SAC
个人观看周博磊课程的浅薄理解,如有错误请不吝指正。原创 2021-10-09 00:10:56 · 1835 阅读 · 0 评论 -
强化学习之TD3(pytorch实现)
强化学习最好的几个算法之一TD3原创 2021-10-06 16:59:10 · 4660 阅读 · 0 评论 -
强化学习之DQN超级进化版Rainbow
阅读本文前可以先了解我前三篇文章《强化学习之DQN》《强化学习之DDQN》、《强化学习之 Dueling DQN》。Rainbow结合了DQN算法的6个扩展改进,将它们集成在同一个智能体上,其中包括DDQN,Dueling DQN,Prioritized Replay、Multi-step Learning、Distributional RL、Noisy Net。加上原版的DQN,凑齐七种因素,召唤Rainbow!参考知乎:https://zhuanlan.zhihu.com/p/261322143D原创 2021-10-01 20:29:11 · 6453 阅读 · 1 评论 -
强化学习之DQN代码(pytorch实现)
本代码取自周博磊强化学习课程https://space.bilibili.com/511221970/channel/detail?cid=105354&ctype=0源码:https://download.csdn.net/download/tianjuewudi/24541126此处程序个人感觉过多过乱,应整理出属于自己风格的代码结构,这是编程实现必不可少的环节。导入包import gymfrom gym import wrappersimport torchimport tor原创 2021-09-25 12:27:40 · 2591 阅读 · 0 评论 -
强化学习之PPO
阅读本文前先了解TRPO算法有助于理解,我对此也写过博客:https://blog.csdn.net/tianjuewudi/article/details/120191097参考李宏毅老师的视频:https://www.bilibili.com/video/BV1Wv411h7kN?p=80PPO,全名Proximal Policy Optimization,近端策略优化算法。PPO算法是一种新型的Policy Gradient算法,Policy Gradient算法对步长十分敏感,但是又难以选择合原创 2021-09-09 23:23:06 · 4181 阅读 · 0 评论 -
强化学习之TRPO
视频链接:https://www.youtube.com/watch?v=fcSYiyvPjm4&list=PLp0tvPwd1T7AD822A9tJ-jfQnMtSKh_Rz&index=3&ab_channel=ShusenWangTRPO算法重复着两个步骤:近似:我们构建一个L(θ∣θold)L(\theta|\theta_{old})L(θ∣θold)函数,在信赖域内近似于价值函数J(θ)J(\theta)J(θ)。最大化:在信赖域内,找到一组新的参数,使得L(θ∣原创 2021-09-08 23:13:09 · 702 阅读 · 0 评论