多智能体协作强化学习中的知识共享

最新推荐文章于 2024-11-08 20:49:38 发布

小天才学习机打游戏

最新推荐文章于 2024-11-08 20:49:38 发布

阅读量714

点赞数 25

文章标签：架构人工智能大数据机器学习 ocr

本文链接：https://blog.csdn.net/m0_59164520/article/details/142731006

版权

本文提出了一种名为谨慎乐观知识共享（CONS）的新方法，用于解决合作多智能体强化学习（MARL）中的知识共享问题。针对传统的行动建议方法可能导致团队探索受阻的情况，即经验丰富的智能体会分享其知识而较不成熟的智能体则遵循这些建议，导致可能依赖于次优或不良建议的问题，本文的方法允许智能体既分享积极也分享消极的知识，并且接收者会谨慎地同化这些知识。在学习的早期阶段更加重视消极知识，而在后期转向重视积极知识，这一过程帮助提升了探索效率和对抗不利建议的韧性。此框架可以在不增加额外训练成本的情况下与现有的基于Q-learning的方法整合，并且在多种具有挑战性的多智能体任务中表现出色。

1 CONSIDER框架

CONSIDER（Cautiously-Optimistic kNowledge Sharing）框架是一种用于合作多智能体强化学习的新方法，旨在通过优化知识共享机制来提高学习速度和最终性能，分为三个主要阶段：学生发送请求、教师分享知识以及学生利用获取的知识。

1.学生发送请求：在知识共享被启动后，智能体i会检查自己的请求预算。如果预算没有耗尽，则根据当前观测到的信息oi，计算请求的概率Pask(oi)并广播一个请求消息mis；否则，智能体i将根据自身的策略选取一个动作。请求消息mis包含了oi、智能体i观测到oi的次数nioi以及对应的最高Q值max Qi(oi, ·)。
2.教师分享知识：教师智能体在收到学生发出的消息mis后，首先检查自己的分享预算bjgive。如果预算充足，那么教师智能体j会根据mis、自己对oi的观测次数njoi以及相应的最高Q值max Qj(oi, ·)决定是否与学生智能体i分享关于oi的知识。只有当教师智能体j在oi上的经验和价值比学生智能体i更好时，才会激活知识共享模块T j。此时，教师智能体会从它的策略πj(·|oi)中抽取最佳动作和最差动作及其概率，连同它的声望Λjoi一起形成一条回复消息mji t发送给学生智能体i。
3.学生利用获取的知识：学生智能体在接收到教师分享的知识后，会乐观地认为教师的知识是有益的，无论是正面还是负面的知识都能给自己带来好处。然而，学生智能体也会谨慎行事，不会盲目信任教师的知识总是正确的。因此，在接收到教师的知识后，学生智能体会仔细调整自己的动作概率，并根据新策略进行有针对性的探索。在这一过程中，学生智能体会根据学习进程调整正面知识wp和负面知识wn的权重，逐渐增加前者同时减少后者。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述