自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(11)
  • 收藏
  • 关注

原创 游戏三子棋

三子棋游戏程序的编写

2022-07-08 12:18:17 77 1

原创 冒泡排序定义及算法程序

冒泡排序定义及算法程序

2022-07-04 18:03:21 192

原创 60后关机程序

请输入“我是猪”取消关机,否则60s后电脑自动关机

2022-06-30 20:54:54 124

原创 C语言猜数字游戏

猜字游戏

2022-06-30 18:58:39 608

原创 C语言单词计数

单词计数

2022-05-24 09:44:54 240

原创 编写一个将输入复制到输出的程序,并将其中的制表符替换为\t,把回退符替换为\b,把反斜杠替换为\\

编写一个将输入复制到输出的程序,并将其中的制表符替换为\t,把回退符替换为\b,把反斜杠替换为\\

2022-05-23 22:12:24 566 1

原创 TCP协议 连接(三次握手)、断开连接(四次挥手)

TCP三次握手、四次挥手

2021-12-29 17:34:15 1595

原创 ATOC注意交流模型

ATOC:Learning Attentional Communication for Multi-Agent Cooperation论文链接:https://arxiv.org/pdf/1805.07733.pdfATOC注意沟通模型,该模型学习何时需要沟通以及如何整合共享信息进行合作决策,使智能体在大规模多智能体的部分可观测分布式环境下学习高效的通信。ATOC由一个策略网络、一个Q网络、一个注意单元和一个通信通道组成。这个模型的精彩之处在于受视觉注意力循环模型的启发,设计了一种注意力单元,它可以接

2021-03-16 15:29:25 1230 1

原创 QMIX:用于深度多智能体强化学习的单调值函数分解

多智能体强化学习-QMIX论文名称:QMIX: Monotonic Value Function Factorisation for Deep Multi-Agent Reinforcement Learning01 介绍在多智能体强化学习中一种比较典型的学习模式为中心式训练,分布式执行,即在训练时利用所共享的信息来帮助更有效的分布式执行。然而,围绕如何最好地利用集中培训仍然存在着许多挑战。其中一个挑战是如何表示和使用大多数强化学习方法学习的动作值函数。一方面,正确地捕捉主体行为的影响,需要一个集中

2020-08-24 18:00:21 2085

原创 强化学习算法分类总结

强化学习算法分类DQN算法框架图AC和DDPG算法框架图

2020-08-09 18:11:51 1011

原创 多智能体强化学习-COMA

多智能体强化学习-COMA论文全称:Counterfactual Multi-Agent Policy Gradients论文地址:https://arxiv.org/abs/1705.08926v1摘要协作多智能体系统可以很自然地用于建模许多现实世界的问题,例如网络分组路由或自主车辆的协调。因此,需要新的强化学习方法来有效地学习这种系统的分散策略。为此,提出了一种新的多智能体参与者批评方法,称为反事实多智能体策略梯度(COMA)。COMA使用一个集中的批评家来估计Q函数,并使用分散的参与者来优化代

2020-08-04 19:01:36 2784

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除