均值场博弈_平均场博弈(mean field game)

本文介绍了平均场博弈理论,与经典博弈论的区别在于,智能体不再关心个体行为,而是关注全局质量变化。通过Hamilton-Jacobi-Bellman(HJB)方程和Fokker-Planck-Kolmogorov(FPK)方程描述个体最优控制和群体状态演化。线性二次游戏的简化使得问题更易求解,通过迭代HJB和FPK方程可以模拟系统动态。
摘要由CSDN通过智能技术生成

The New Big Fish Called Mean-Field Game Theory

原文链接http://www.science4all.org/article/mean-field-games/​www.science4all.org

主要内容

在经典博弈论中,它对附近其他鱼类的行为做出反应。这是非常复杂的,因为不同的鱼类之间会有大量的相互作用。这意味着经典博弈论对应于一长串高度耦合的方程。如果你不明白我的意思,别担心。本质上,我的观点是,经典博弈论模型几乎不可能用3条鱼来解决,而用更多的鱼来解决它会变得“成倍困难”。

我在这里非常宽松地使用“指数难度”的概念! 那不好,你不应该这样做! 但是,基本上,一种理解的方式是,国家的数量与鱼类的数量成指数增长。

那么,平均场博弈论中的情况如何?

他们被巧妙地认为!在均场博弈论中,每条鱼都不关心其他每条鱼。 相反,它关心的是附近的鱼类在全球范围内如何移动。 换句话说,每条鱼仅对质量做出反应。 而且,令人惊讶的是,可以使用功能强大的常用统计力学工具很好地描述这一质量!当然,质量运动必然是每条鱼所做的结果。 这意味着我们实际上在每条鱼和所有物体之间仍然具有耦合方程。

总结:

1、现在博弈论随着智能体的增长会产生"指数爆炸"的作用

2、MFG中智能体不关心其他每个智能体的动作,将其他智能体的动作等效为虚拟的“平均单位”。不同于传统算法,随着数量的增长其结果反而更加准确。HJB方程:个体根据整体状态作出的最优控制 FPK方程:整体在个体作出动作后整体状态的更新

2、Hamilton-Jacobi-Bellman方程

从数学上讲,这意味着它们可以控制速度,箭头是指向其运动方向的箭头。 另外,箭头越长,鱼游得越快。 因此,鱼在任何时候都根据其位置和质量来控制其速度。

我将定义平均场博弈的两个主要对象之一:控制速度变量u。控制是取决于位置x和时间t的速度选择。 至关重要的是,如果所有鱼类都相似,那么它们都具有相同的最佳控制。 因此,我们只需要一个控制变量来描述所有鱼类的行为!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值