01多智能体交互模型:标准博弈与随机博弈

本文探讨了多智能体强化学习中基于博弈论的模型,包括标准博弈的分类(如零和博弈、共同利益博弈等)、有限和无限重复博弈的区别,以及随机博弈的马尔科夫特性。着重介绍了如何通过策略在重复博弈中决策以及随机博弈的状态转移和奖励机制。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >


前言

多智能体强化学习——博弈论模型


一、博弈分层模型

在这里插入图片描述

1.Normal-form game(标准博弈)

标准博弈:在这里插入图片描述
每个智能体采取策略,根据策略采取对应的动作,所有动作组成联合动作空间,每个智能体根据奖励函数与联合动作空间获取奖励。

根据奖励的不同分类

在这里插入图片描述
主要分为三类:零和博弈、共同利益博弈、一般和博弈
零和博弈:所有智能体的奖励和为0;共同利益博弈:所有智能体采取相同的动作获取相同的奖励;一般和博弈:不同智能体之间的奖励函数没有关系

repeated Normal-form game

标准博弈描述了多个智能体的单次交互过程,通过重复标准博弈获得多次交互,得到一个序列的博弈过程。在第t个时间步,每个智能体根据随机性的策略采取相应的动作,第t个时间步的策略受到t时刻之前的联合动作的影响, h t = { a 0 , a 1 , . . . . . , a t − 1 } h^t=\{a^0,a^1,.....,a^{t-1}\} ht={ a0,a1,.....,at1},其中 a t = { a 1 t , a 2 t , . . . . . , a n t } a^t=\{a_1^t,a_2^t,.....,a_n^t\} at={ a1t,a2t,.....,a

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值