MARL——多智能体强化学习特点与架构总结

本文概述了多智能体系统中的三个关键框架:完全分布式、集中式训练集中式执行以及集中式训练分布式执行。讨论了各框架的特点,包括信息共享、决策相互影响和通信需求。作者引用了王树森老师的讲解视频作为参考。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1. 特点概述

1) 多智能体系统中,每个agent未必能观测到所有的状态信息,此时智能体i得到的观测 o i o^{i} oi通常不等于状态 S S S
2) 智能体动作选择互相影响。
3) 需要通信机制。

2. 3种框架

完全分布式

这种算法框架和单智能体强化学习一样,每个个体都根据自身观测进行训练学习。个体之间没有交流。
这种效果通常不好,因为没有考虑智能体动作选择互相影响的关系。
在这里插入图片描述

集中式训练,集中式执行 (完全集中式)

存在一种中央控制器(相当于一个中心/全知节点),能够拿到所有agent的观测、奖励函数等,获得所有信息进行训练,执行时根据训练好的策略(不同智能体的策略参数可能不同),传给每个agent,由agent执行。
这种架构每个智能体上没有策略网络,需要花时间与中心节点进行通信与同步。
在这里插入图片描述
在这里插入图片描述

集中式训练,分布式执行

每个agent上都有自己的网络,中央控制器有 n n n个价值网络。中央控制器的价值网络是全知的,能够根据所有agent的观测和动作进行评判,针对其所对应的agent传回来的奖励 r i r_i ri进行训练更新。执行的时候,每个agent根据自身网络执行即可。
这是目前其最主流的训练方式。这种训练模式的主要思想是允许在训练阶段在智能体之间进行信息交流,以帮助智能体学习更好的策略。通过共享信息,智能体可以更好地理解环境和其他智能体的行为,并相应地调整其策略。
在这里插入图片描述
在这里插入图片描述

!!! 以上内容参考王树森老师的宝藏讲解视频

### 集中式训练分布式执行的区别 #### 定义概念 集中式训练指的是所有的计算资源集中在单一位置完成模型的训练过程。这种模式下,数据集被加载到中心服务器上,并在此处进行迭代优化直至收敛[^1]。 相比之下,分布式执行意味着将任务分解成多个子任务并分配给不同的节点来共同完成整个工作流程。对于机器学习而言,这通常涉及到参数更新同步机制以及跨节点间通信开销管理等问题[^2]。 #### 实现方式差异 在具体实现方面: - **集中式训练** - 数据存储于中央仓库; - 所有运算都在一台或多台紧密耦合(即低延迟高带宽连接)计算机集群内完成; - 更容易控制环境变量,调试也相对简单; - **分布式执行** - 支持更大规模的数据处理能力,因为可以利用地理分布广泛的硬件设施; - 对网络质量依赖较大,需考虑容错性和负载均衡等因素[^3]。 ```python # 这里给出一个简单的例子展示两种架构下的伪代码对比 # 集中式训练 def centralized_training(data): model = initialize_model() while not converged: gradients = compute_gradients(model, data) update_parameters(model, gradients) # 分布式执行 (简化版) from multiprocessing import Pool def distributed_execution(chunk_of_data): local_model = load_latest_snapshot() # 假设有一个全局版本控制系统 chunk_gradients = compute_gradients(local_model, chunk_of_data) if __name__ == '__main__': pool = Pool(processes=number_of_workers) results = [] for worker_id in range(number_of_workers): result = pool.apply_async(distributed_execution, args=(data_chunks[worker_id],)) results.append(result) # 合并结果... ``` ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值