- 博客(11)
- 收藏
- 关注
原创 编写一个将输入复制到输出的程序,并将其中的制表符替换为\t,把回退符替换为\b,把反斜杠替换为\\
编写一个将输入复制到输出的程序,并将其中的制表符替换为\t,把回退符替换为\b,把反斜杠替换为\\
2022-05-23 22:12:24 566 1
原创 ATOC注意交流模型
ATOC:Learning Attentional Communication for Multi-Agent Cooperation论文链接:https://arxiv.org/pdf/1805.07733.pdfATOC注意沟通模型,该模型学习何时需要沟通以及如何整合共享信息进行合作决策,使智能体在大规模多智能体的部分可观测分布式环境下学习高效的通信。ATOC由一个策略网络、一个Q网络、一个注意单元和一个通信通道组成。这个模型的精彩之处在于受视觉注意力循环模型的启发,设计了一种注意力单元,它可以接
2021-03-16 15:29:25 1230 1
原创 QMIX:用于深度多智能体强化学习的单调值函数分解
多智能体强化学习-QMIX论文名称:QMIX: Monotonic Value Function Factorisation for Deep Multi-Agent Reinforcement Learning01 介绍在多智能体强化学习中一种比较典型的学习模式为中心式训练,分布式执行,即在训练时利用所共享的信息来帮助更有效的分布式执行。然而,围绕如何最好地利用集中培训仍然存在着许多挑战。其中一个挑战是如何表示和使用大多数强化学习方法学习的动作值函数。一方面,正确地捕捉主体行为的影响,需要一个集中
2020-08-24 18:00:21 2085
原创 多智能体强化学习-COMA
多智能体强化学习-COMA论文全称:Counterfactual Multi-Agent Policy Gradients论文地址:https://arxiv.org/abs/1705.08926v1摘要协作多智能体系统可以很自然地用于建模许多现实世界的问题,例如网络分组路由或自主车辆的协调。因此,需要新的强化学习方法来有效地学习这种系统的分散策略。为此,提出了一种新的多智能体参与者批评方法,称为反事实多智能体策略梯度(COMA)。COMA使用一个集中的批评家来估计Q函数,并使用分散的参与者来优化代
2020-08-04 19:01:36 2784
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人