多智能体协作强化学习中的知识共享

本文提出了一种名为谨慎乐观知识共享(CONS)的新方法,用于解决合作多智能体强化学习(MARL)中的知识共享问题。针对传统的行动建议方法可能导致团队探索受阻的情况,即经验丰富的智能体会分享其知识而较不成熟的智能体则遵循这些建议,导致可能依赖于次优或不良建议的问题,本文的方法允许智能体既分享积极也分享消极的知识,并且接收者会谨慎地同化这些知识。在学习的早期阶段更加重视消极知识,而在后期转向重视积极知识,这一过程帮助提升了探索效率和对抗不利建议的韧性。此框架可以在不增加额外训练成本的情况下与现有的基于Q-learning的方法整合,并且在多种具有挑战性的多智能体任务中表现出色。

在这里插入图片描述

1 CONSIDER框架

CONSIDER(Cautiously-Optimistic kNowledge Sharing)框架是一种用于合作多智能体强化学习的新方法,旨在通过优化知识共享机制来提高学习速度和最终性能,分为三个主要阶段:学生发送请求、教师分享知识以及学生利用获取的知识。

  • 1.学生发送请求:在知识共享被启动后,智能体i会检查自己的请求预算。如果预算没有耗尽,则根据当前观测到的信息oi,计算请求的概率Pask(oi)并广播一个请求消息mis;否则,智能体i将根据自身的策略选取一个动作。请求消息mis包含了oi、智能体i观测到oi的次数nioi以及对应的最高Q值max Qi(oi, ·)。

  • 2.教师分享知识:教师智能体在收到学生发出的消息mis后,首先检查自己的分享预算bjgive。如果预算充足,那么教师智能体j会根据mis、自己对oi的观测次数njoi以及相应的最高Q值max Qj(oi, ·)决定是否与学生智能体i分享关于oi的知识。只有当教师智能体j在oi上的经验和价值比学生智能体i更好时,才会激活知识共享模块T j。此时,教师智能体会从它的策略πj(·|oi)中抽取最佳动作和最差动作及其概率,连同它的声望Λjoi一起形成一条回复消息mji t发送给学生智能体i。

  • 3.学生利用获取的知识:学生智能体在接收到教师分享的知识后,会乐观地认为教师的知识是有益的,无论是正面还是负面的知识都能给自己带来好处。然而,学生智能体也会谨慎行事,不会盲目信任教师的知识总是正确的。因此,在接收到教师的知识后,学生智能体会仔细调整自己的动作概率,并根据新策略进行有针对性的探索。在这一过程中,学生智能体会根据学习进程调整正面知识wp和负面知识wn的权重,逐渐增加前者同时减少后者。

2 结语

本文提出了一种名为谨慎乐观知识共享(CONS)的新框架,该框架通过让多智能体系统中的成员共享正负两面的经验知识,并谨慎地融合这些知识来促进早期探索效率及提升对不利建议的抗性,从而改善了多智能体强化学习中的合作表现。

论文题目: Cautiously-Optimistic Knowledge Sharing for Cooperative Multi-Agent Reinforcement Learning

论文链接: https://arxiv.org/abs/2312.12095

PS: 欢迎大家扫码关注公众号_,我们一起在AI的世界中探索前行,期待共同进步!
在这里插入图片描述

### SKRL 强化学习参数配置及含义 在使用 SKRL 进行强化学习实验时,理解如何配置和解释这些参数至关重要。以下是有关 SKRL 中常用参数及其意义的说明。 #### 命令行参数解析 命令行参数主要用于控制程序运行环境以及指定某些特定设置。这类参数可以进一步细分为普通命令行参数与Hydra配置参数[^1]。前者通常用于传递简单的选项或开关;而后者则允许更复杂的结构化配置文件定义,例如通过`env.scene.num_envs=32`来调整模拟环境中并行执行的任务数量。 #### Hydra 配置参数详解 Hydra 是一种强大的工具,它使得管理复杂的应用程序配置变得简单直观。当涉及到像SKRL这样的高级机器学习框架时,利用Hydra可以帮助更好地管理和共享模型超参和其他重要设定。下面列举几个常见的Hydra配置项: - **agent.algorithm**: 定义所采用的具体算法名称(如PPO, DDPG等) - **environment.id**: 设置目标仿真器ID或者游戏名为训练平台 - **trainer.timesteps_per_iteration**: 单次迭代过程中经历的时间步数总量 - **evaluator.episodes_to_test**: 测试阶段每轮评估所需完成的游戏局数 除了上述提到的关键字段外,还有许其他可用选项可以根据具体应用场景灵活定制。值得注意的是,在实际操中应当依据官方文档提供的最新指南来进行相应修改[^2]。 ```yaml # Example of a YAML configuration file for SKRL using Hydra framework. defaults: - override /agent: ppo_agent.yaml - override /environment: cartpole_environment.yaml agent: algorithm: PPO learning_rate: 0.0003 gamma: 0.99 ... environment: id: CartPole-v1 num_envs: 8 ... trainer: timesteps_per_iteration: 2048 batch_size: 64 epochs: 10 ... evaluator: episodes_to_test: 5 render: true ... ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值