多智能体协作强化学习中的知识共享

最新推荐文章于 2025-03-26 22:49:35 发布

hanscalZheng

最新推荐文章于 2025-03-26 22:49:35 发布

阅读量1k

点赞数 25

分类专栏：大语言模型文章标签：强化学习知识分享

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43145427/article/details/142700197

版权

大语言模型专栏收录该内容

146 篇文章

订阅专栏

本文提出了一种名为谨慎乐观知识共享（CONS）的新方法，用于解决合作多智能体强化学习（MARL）中的知识共享问题。针对传统的行动建议方法可能导致团队探索受阻的情况，即经验丰富的智能体会分享其知识而较不成熟的智能体则遵循这些建议，导致可能依赖于次优或不良建议的问题，本文的方法允许智能体既分享积极也分享消极的知识，并且接收者会谨慎地同化这些知识。在学习的早期阶段更加重视消极知识，而在后期转向重视积极知识，这一过程帮助提升了探索效率和对抗不利建议的韧性。此框架可以在不增加额外训练成本的情况下与现有的基于Q-learning的方法整合，并且在多种具有挑战性的多智能体任务中表现出色。

在这里插入图片描述

1 CONSIDER框架

CONSIDER（Cautiously-Optimistic kNowledge Sharing）框架是一种用于合作多智能体强化学习的新方法，旨在通过优化知识共享机制来提高学习速度和最终性能，分为三个主要阶段：学生发送请求、教师分享知识以及学生利用获取的知识。

1.学生发送请求：在知识共享被启动后，智能体i会检查自己的请求预算。如果预算没有耗尽，则根据当前观测到的信息oi，计算请求的概率Pask(oi)并广播一个请求消息mis；否则，智能体i将根据自身的策略选取一个动作。请求消息mis包含了oi、智能体i观测到oi的次数nioi以及对应的最高Q值max Qi(oi, ·)。
2.教师分享知识：教师智能体在收到学生发出的消息mis后，首先检查自己的分享预算bjgive。如果预算充足，那么教师智能体j会根据mis、自己对oi的观测次数njoi以及相应的最高Q值max Qj(oi, ·)决定是否与学生智能体i分享关于oi的知识。只有当教师智能体j在oi上的经验和价值比学生智能体i更好时，才会激活知识共享模块T j。此时，教师智能体会从它的策略πj(·|oi)中抽取最佳动作和最差动作及其概率，连同它的声望Λjoi一起形成一条回复消息mji t发送给学生智能体i。
3.学生利用获取的知识：学生智能体在接收到教师分享的知识后，会乐观地认为教师的知识是有益的，无论是正面还是负面的知识都能给自己带来好处。然而，学生智能体也会谨慎行事，不会盲目信任教师的知识总是正确的。因此，在接收到教师的知识后，学生智能体会仔细调整自己的动作概率，并根据新策略进行有针对性的探索。在这一过程中，学生智能体会根据学习进程调整正面知识wp和负面知识wn的权重，逐渐增加前者同时减少后者。

2 结语

本文提出了一种名为谨慎乐观知识共享（CONS）的新框架，该框架通过让多智能体系统中的成员共享正负两面的经验知识，并谨慎地融合这些知识来促进早期探索效率及提升对不利建议的抗性，从而改善了多智能体强化学习中的合作表现。

论文题目： Cautiously-Optimistic Knowledge Sharing for Cooperative Multi-Agent Reinforcement Learning

论文链接： https://arxiv.org/abs/2312.12095

PS: 欢迎大家扫码关注公众号^_，我们一起在AI的世界中探索前行，期待共同进步！
在这里插入图片描述

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。