开飞机的贝塔儿-CSDN博客

原创 60后关机程序

请输入“我是猪”取消关机，否则60s后电脑自动关机

2022-06-30 20:54:54 127

原创编写一个将输入复制到输出的程序，并将其中的制表符替换为\t，把回退符替换为\b，把反斜杠替换为\\

编写一个将输入复制到输出的程序，并将其中的制表符替换为\t，把回退符替换为\b，把反斜杠替换为\\

2022-05-23 22:12:24 571 1

ATOC:Learning Attentional Communication for Multi-Agent Cooperation论文链接：https://arxiv.org/pdf/1805.07733.pdfATOC注意沟通模型，该模型学习何时需要沟通以及如何整合共享信息进行合作决策，使智能体在大规模多智能体的部分可观测分布式环境下学习高效的通信。ATOC由一个策略网络、一个Q网络、一个注意单元和一个通信通道组成。这个模型的精彩之处在于受视觉注意力循环模型的启发，设计了一种注意力单元，它可以接

2021-03-16 15:29:25 1250 1

原创 QMIX:用于深度多智能体强化学习的单调值函数分解

多智能体强化学习-QMIX论文名称：QMIX: Monotonic Value Function Factorisation for Deep Multi-Agent Reinforcement Learning01 介绍在多智能体强化学习中一种比较典型的学习模式为中心式训练，分布式执行，即在训练时利用所共享的信息来帮助更有效的分布式执行。然而，围绕如何最好地利用集中培训仍然存在着许多挑战。其中一个挑战是如何表示和使用大多数强化学习方法学习的动作值函数。一方面，正确地捕捉主体行为的影响，需要一个集中

2020-08-24 18:00:21 2109

原创强化学习算法分类总结

强化学习算法分类DQN算法框架图AC和DDPG算法框架图

2020-08-09 18:11:51 1019

原创多智能体强化学习-COMA

多智能体强化学习-COMA论文全称：Counterfactual Multi-Agent Policy Gradients论文地址:https://arxiv.org/abs/1705.08926v1摘要协作多智能体系统可以很自然地用于建模许多现实世界的问题，例如网络分组路由或自主车辆的协调。因此，需要新的强化学习方法来有效地学习这种系统的分散策略。为此，提出了一种新的多智能体参与者批评方法，称为反事实多智能体策略梯度(COMA)。COMA使用一个集中的批评家来估计Q函数，并使用分散的参与者来优化代

2020-08-04 19:01:36 2816

dmj3214的博客

原创游戏三子棋

原创冒泡排序定义及算法程序

原创 60后关机程序

原创 C语言猜数字游戏

原创 C语言单词计数

原创编写一个将输入复制到输出的程序，并将其中的制表符替换为\t，把回退符替换为\b，把反斜杠替换为\\

原创 TCP协议连接（三次握手）、断开连接（四次挥手）

原创 ATOC注意交流模型

原创 QMIX:用于深度多智能体强化学习的单调值函数分解

原创强化学习算法分类总结

原创多智能体强化学习-COMA

空空如也

空空如也